Jak wynika z rozszerzonego pozwu zbiorowego, dyrektorzy firmy NVIDIA zezwolili na używanie milionów pirackich książek z Archiwum Anny do celów szkoleń w zakresie sztucznej inteligencji. W pozwie, powołując się na wewnętrzne dokumenty NVIDIA, zarzuca się, że firma skontaktowała się z Archiwum Anny w celu uzyskania szybkiego dostępu do swoich danych. NVIDIA skorzystała na boomie związanym ze sztuczną inteligencją, a jej przychody wzrosły ze względu na duży popyt na jej chipy do uczenia się AI i usługi centrów danych. NVIDIA opracowuje własne modele sztucznej inteligencji, w tym NeMo, Retro-48B, InstructRetro i Megatron. Modele te są szkolone przy użyciu sprzętu NVIDIA i dużych bibliotek tekstowych, podobnie jak w przypadku innych firm technologicznych. Firma stanęła przed wyzwaniami prawnymi ze strony właścicieli praw autorskich dotyczącymi jej metodologii szkoleniowych. Autorzy po raz pierwszy pozwali firmę NVIDIA na początku 2024 r. za naruszenie praw autorskich, twierdząc, że modele sztucznej inteligencji firmy zostały przeszkolone na zestawie danych Books3, który zawierał dzieła Bibliotik chronione prawem autorskim bez pozwolenia. NVIDIA broniła swoich działań jako dozwolonego użytku, stwierdzając, że książki są statystycznymi korelacjami z jej modelami sztucznej inteligencji. Jednak w trakcie odkrycia pojawiły się nowe dowody. Powodowie złożyli poprawioną skargę w zeszły piątek, rozszerzając zakres pozwu poprzez dodanie większej liczby książek, autorów i modeli sztucznej inteligencji. Zmieniona skarga zawiera szersze roszczenia dotyczące „biblioteki cieni”. Autorzy, w tym Abdi Nazemian, cytują obecnie wewnętrzne e-maile i dokumenty firmy NVIDIA, twierdząc, że firma chętnie pobrała miliony książek chronionych prawem autorskim. W skardze stwierdzono, że „presja konkurencji doprowadziła firmę NVIDIA do piractwa” obejmującego współpracę z Anna's Archive. Zgodnie ze zmienioną skargą członek zespołu ds. strategii danych firmy NVIDIA skontaktował się z Archiwum Anny, aby zapytać o możliwość nabycia pirackich materiałów do wstępnego uczenia dużych modeli językowych, w tym Archiwum Anny. W skardze stwierdzono, że Archiwum Anny pobrało dziesiątki tysięcy dolarów za „szybki dostęp” do swoich zbiorów, a firma NVIDIA zwróciła się o szczegółowe informacje na temat tego dostępu. W skardze zarzuca się, że Archiwum Anny ostrzegło firmę NVIDIA, że zawartość jej biblioteki została nielegalnie nabyta i utrzymywana. Według doniesień Anna's Archive zwróciło się do kierownictwa firmy NVIDIA o wewnętrzne pozwolenie na kontynuację, które zostało wydane w ciągu tygodnia. Po otrzymaniu zgody od kierownictwa firmy NVIDIA, Archiwum Anny umożliwiło dostęp do swoich pirackich książek. Anny's Archive zapewniło firmie NVIDIA dostęp do około 500 terabajtów danych, w tym milionów książek dostępnych zazwyczaj za pośrednictwem cyfrowego systemu wypożyczania Internet Archive. W skardze nie określono, czy NVIDIA zapłaciła za Archiwum Anny. NVIDIA spotyka się również z oskarżeniami o korzystanie z innych pirackich źródeł, w tym LibGen, Sci-Hub i Z-Library, oprócz bazy danych Books3. Autorzy twierdzą, że firma NVIDIA nie tylko pobierała i wykorzystywała pirackie książki do celów szkolenia w zakresie sztucznej inteligencji, ale także rozpowszechniała skrypty i narzędzia umożliwiające klientom korporacyjnym pobranie „The Pile”, zawierającego piracki zestaw danych Books3. Zarzuty te wprowadzają nowe roszczenia dotyczące zastępczego i współudziału w naruszeniu prawa, twierdząc, że firma NVIDIA generowała przychody od klientów, ułatwiając dostęp do tych pirackich zbiorów danych. Autorzy domagają się odszkodowania dla wskazanych autorów i potencjalnie setek innych osób przyłączających się do pozwu zbiorowego. To odkrycie jest pierwszym publicznym ujawnieniem korespondencji pomiędzy dużą amerykańską firmą technologiczną a Archiwum Anny. Pierwsza skonsolidowana i poprawiona skarga, wniesiony w Sądzie Okręgowym Stanów Zjednoczonych dla Północnego Okręgu Kalifornii wymienia autorów: Abdiego Nazemiana, Briana Keene, Stewarta O'Nana, Andre Dubusa III i Susan Orlean.




