Według naukowców Uniwersytet Harvarda we współpracy z Google udostępni zbiór danych obejmujący około miliona książek należących do domeny publicznej do wykorzystania w szkoleniu modeli sztucznej inteligencji. PRZEWODOWY. Inicjatywa ta, znana jako Institutional Data Initiative, zapewniła finansowanie zarówno od Microsoft, jak i OpenAI. Zbiór danych obejmuje dzieła, które nie są już objęte ochroną praw autorskich, pobrane w wyniku szeroko zakrojonych działań Google związanych ze skanowaniem książek.
Harvard i Google dostarczają milion książek do szkolenia AI
Ogłoszenie nastąpiło 12 grudnia 2024 r. wraz ze zbiorem danych obejmującym szeroki wachlarz gatunków, języków i autorów, w tym tak znane osobistości, jak Dickens, Dante i Szekspir. Dyrektor wykonawczy tej inicjatywy na Harvardzie, Greg Leppert, podkreślił, że zbiór danych ma na celu „wyrównanie szans”, umożliwienie dostępu laboratoriom badawczym i start-upom zajmującym się sztuczną inteligencją w celu usprawnienia ich wysiłków w zakresie opracowywania modeli językowych. Zbiór danych jest przeznaczony dla każdego, kto chce trenować duże modele językowe (LLM), chociaż konkretna data udostępnienia i metoda nie zostały jeszcze ujawnione.
Ponieważ technologie sztucznej inteligencji w coraz większym stopniu opierają się na ogromnych ilościach danych tekstowych, ten zbiór danych służy jako kluczowy zasób. Podstawowe modele, takie jak ChatGPT, w znacznym stopniu korzystają z wysokiej jakości danych szkoleniowych. Jednak konieczność posiadania danych spowodowała wyzwania dla firm takich jak OpenAI, które stają w obliczu kontroli prawnej w związku z nieuprawnionym wykorzystaniem materiałów chronionych prawem autorskim. Pozwy głównych wydawców, w tym Wall Street Journal i New York Times, podkreślają utrzymujące się napięcia dotyczące wykorzystania treści i naruszania praw autorskich w szkoleniach dotyczących sztucznej inteligencji.
Chociaż nadchodzący zbiór danych będzie korzystny, nadal nie jest jasne, czy milion książek wystarczy, aby sprostać wymaganiom szkolenia w zakresie modeli sztucznej inteligencji, zwłaszcza że teksty historyczne nie obejmują współczesnych odniesień i zaktualizowanego slangu. Firmy zajmujące się sztuczną inteligencją będą w dalszym ciągu poszukiwać dodatkowych źródeł danych, zwłaszcza ekskluzywnych lub aktualnych informacji, aby odróżnić swoje modele od konkurencji.
- Inicjatywa dotycząca danych instytucjonalnych Harvardu ma na celu zapewnienie dostępnych danych na potrzeby rozwoju sztucznej inteligencji.
- Projekt wspiera finansowanie od Microsoft i OpenAI.
- Zbiór danych obejmuje klasykę literatury i mniej znane teksty.
- Modele AI wymagają obszernych danych; obecne kontrowersje dotyczą praw do wykorzystania danych.
Programiści w sektorze AI nie ograniczają się wyłącznie do tekstów historycznych. Kilka platform, w tym Reddit i X, zaczęło ograniczać dostęp do swoich danych, uznając ich rosnącą wartość. Reddit zawarł umowy licencyjne z firmami takimi jak Google, podczas gdy X utrzymuje wyłączne ustalenia dotyczące treści w celu wykorzystania danych w czasie rzeczywistym. Ta zmiana w dostępności treści odzwierciedla konkurencyjny krajobraz, w którym firmy zajmujące się sztuczną inteligencją mają trudności z uzyskaniem odpowiednich i odpowiednich danych szkoleniowych bez ponoszenia konsekwencji prawnych.
Realizacja Inicjatywy na rzecz Danych Instytucjonalnych jest krokiem w kierunku złagodzenia tych nacisków poprzez zapewnienie bezpiecznego prawnie zbioru tekstów historycznych, umożliwiającego odpowiedzialne szkolenie modelowe. Jednak kompleksowe strategie będą nadal konieczne, aby zapewnić konkurencyjność modeli sztucznej inteligencji i zdolność zrozumienia współczesnego języka i odniesień.
To, jak skutecznie te zasoby zaspokoją ciągłe zapotrzebowanie na kompleksowe i zróżnicowane dane, pozostaje kwestią otwartą w miarę kontynuowania badań nad wykorzystaniem danych.
Autor wyróżnionego obrazu: Banki gliny/Unsplash