Google i Harvard wypuszczają milion książek na temat uczenia modeli sztucznej inteligencji

Według naukowców Uniwersytet Harvarda we współpracy z Google udostępni zbiór danych obejmujący około miliona książek należących do domeny publicznej do wykorzystania w szkoleniu modeli sztucznej inteligencji. PRZEWODOWY. Inicjatywa ta, znana jako Institutional Data Initiative, zapewniła finansowanie zarówno od Microsoft, jak i OpenAI. Zbiór danych obejmuje dzieła, które nie są już objęte ochroną praw autorskich, pobrane w wyniku szeroko zakrojonych działań Google związanych ze skanowaniem książek.

Harvard i Google dostarczają milion książek do szkolenia AI

Ogłoszenie nastąpiło 12 grudnia 2024 r. wraz ze zbiorem danych obejmującym szeroki wachlarz gatunków, języków i autorów, w tym tak znane osobistości, jak Dickens, Dante i Szekspir. Dyrektor wykonawczy tej inicjatywy na Harvardzie, Greg Leppert, podkreślił, że zbiór danych ma na celu „wyrównanie szans”, umożliwienie dostępu laboratoriom badawczym i start-upom zajmującym się sztuczną inteligencją w celu usprawnienia ich wysiłków w zakresie opracowywania modeli językowych. Zbiór danych jest przeznaczony dla każdego, kto chce trenować duże modele językowe (LLM), chociaż konkretna data udostępnienia i metoda nie zostały jeszcze ujawnione.

Ponieważ technologie sztucznej inteligencji w coraz większym stopniu opierają się na ogromnych ilościach danych tekstowych, ten zbiór danych służy jako kluczowy zasób. Podstawowe modele, takie jak ChatGPT, w znacznym stopniu korzystają z wysokiej jakości danych szkoleniowych. Jednak konieczność posiadania danych spowodowała wyzwania dla firm takich jak OpenAI, które stają w obliczu kontroli prawnej w związku z nieuprawnionym wykorzystaniem materiałów chronionych prawem autorskim. Pozwy głównych wydawców, w tym Wall Street Journal i New York Times, podkreślają utrzymujące się napięcia dotyczące wykorzystania treści i naruszania praw autorskich w szkoleniach dotyczących sztucznej inteligencji.

Chociaż nadchodzący zbiór danych będzie korzystny, nadal nie jest jasne, czy milion książek wystarczy, aby sprostać wymaganiom szkolenia w zakresie modeli sztucznej inteligencji, zwłaszcza że teksty historyczne nie obejmują współczesnych odniesień i zaktualizowanego slangu. Firmy zajmujące się sztuczną inteligencją będą w dalszym ciągu poszukiwać dodatkowych źródeł danych, zwłaszcza ekskluzywnych lub aktualnych informacji, aby odróżnić swoje modele od konkurencji.

Inicjatywa dotycząca danych instytucjonalnych Harvardu ma na celu zapewnienie dostępnych danych na potrzeby rozwoju sztucznej inteligencji.
Projekt wspiera finansowanie od Microsoft i OpenAI.
Zbiór danych obejmuje klasykę literatury i mniej znane teksty.
Modele AI wymagają obszernych danych; obecne kontrowersje dotyczą praw do wykorzystania danych.

Programiści w sektorze AI nie ograniczają się wyłącznie do tekstów historycznych. Kilka platform, w tym Reddit i X, zaczęło ograniczać dostęp do swoich danych, uznając ich rosnącą wartość. Reddit zawarł umowy licencyjne z firmami takimi jak Google, podczas gdy X utrzymuje wyłączne ustalenia dotyczące treści w celu wykorzystania danych w czasie rzeczywistym. Ta zmiana w dostępności treści odzwierciedla konkurencyjny krajobraz, w którym firmy zajmujące się sztuczną inteligencją mają trudności z uzyskaniem odpowiednich i odpowiednich danych szkoleniowych bez ponoszenia konsekwencji prawnych.

Realizacja Inicjatywy na rzecz Danych Instytucjonalnych jest krokiem w kierunku złagodzenia tych nacisków poprzez zapewnienie bezpiecznego prawnie zbioru tekstów historycznych, umożliwiającego odpowiedzialne szkolenie modelowe. Jednak kompleksowe strategie będą nadal konieczne, aby zapewnić konkurencyjność modeli sztucznej inteligencji i zdolność zrozumienia współczesnego języka i odniesień.

To, jak skutecznie te zasoby zaspokoją ciągłe zapotrzebowanie na kompleksowe i zróżnicowane dane, pozostaje kwestią otwartą w miarę kontynuowania badań nad wykorzystaniem danych.

Autor wyróżnionego obrazu: Banki gliny/Unsplash

Tags: Sztuczna inteligencja Wyróżniony

Google i Harvard wypuszczają milion książek na temat uczenia modeli sztucznej inteligencji

Related Posts

Meta prawie uruchomiła Facebook bez reklam w 2018 roku

New Jersey oskarża niezbędne praktyki dla dzieci

Model O3 staje się wirusowy do wykrywania rzeczywistych lokalizacji

Sędzia zasady Google posiada nielegalny monopol reklamowy

Eksperci twierdzą, że raport bezpieczeństwa Gemini 2.5 jest zbyt cienki

Kursor był na radar Openai przed Windsurf

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Google i Harvard wypuszczają milion książek na temat uczenia modeli sztucznej inteligencji

Harvard i Google dostarczają milion książek do szkolenia AI

Related Posts

Meta prawie uruchomiła Facebook bez reklam w 2018 roku

New Jersey oskarża niezbędne praktyki dla dzieci

Model O3 staje się wirusowy do wykrywania rzeczywistych lokalizacji

Sędzia zasady Google posiada nielegalny monopol reklamowy

Eksperci twierdzą, że raport bezpieczeństwa Gemini 2.5 jest zbyt cienki

Kursor był na radar Openai przed Windsurf

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us