Openai stoi w obliczu oskarżeń o szkolenie modeli AI na materiałach chronionych prawem autorskim bez pozwolenia, jako nowy papier Twierdzi, że firma korzystała z książek o wypłaty z O’Reilly Media do wyszkolenia swojego modelu GPT-4O. Projekt AI Disclosures, organizację non-profit współzałożona przez Tima O’Reilly i Ilana Straussa, opublikował artykuł.
Modele AI działają jako silniki prognostyczne, wzorce uczenia się z obszernych danych, takich jak książki i filmy, aby ekstrapolować z podpowiedzi. Podczas gdy niektóre laboratoria AI wykorzystują dane generowane przez AI, ponieważ źródła w świecie rzeczywistych zmniejszają się, szkolenie danych czysto syntetycznych niesie ryzyko, takie jak wpływ na wydajność modelu.
Metodologia artykułu, De-copokreśla, czy model rozróżnia teksty uświadamione człowiekowi i Parafrazy generowane przez AI. Sugeruje to, czy model ma wcześniejszą wiedzę z danych szkoleniowych. Naukowcy zbadali GPT-4O, GPT-3.5 Turbo i inne modele OpenAI, wykorzystując 13 962 fragmentów 34 książek O’Reilly, aby oszacować prawdopodobieństwo włączenia do zestawów danych szkoleniowych.
Wyniki wskazały, że GPT-4O rozpoznał znacznie więcej treści książki O’Reilly niż starsze modele, takie jak Turbo GPT-3.5. Według artykułu, GPT-4O Prawdopodobnie rozpoznaje wiele niepublicznych książek O’Reilly opublikowanych przed datą odcięcia treningu. Według artykułu O’Reilly nie ma umowy licencyjnej z Openai.
Współautorzy potwierdzają, że metoda nie jest niezawodna, a OpenAI mogło zebrać fragmenty z wejść ChatGPT użytkowników. Kolejnym zastrzeżeniem jest to, że nowsze modele OpenAI, w tym GPT-4.5, nie zostały ocenione.
Openai, opowiadając się za luźniejszymi ograniczeniami praw autorskich, szukał danych szkoleniowych wyższej jakości, zatrudniając dziennikarzy do dostrojenia wyników modeli. Firma ma również umowy licencyjne z wydawcami prasowymi i oferuje mechanizmy rezygnacji dla właścicieli praw autorskich. Openai nie skomentował papieru.