Proponowany pozew zbiorowy złożony przez pisarkę z Oregonu, Elizabeth Lyon, oskarża firmę Adobe o trenowanie swojego modelu sztucznej inteligencji SlimLM w oparciu o pirackie książki, w tym jej przewodniki, za pośrednictwem zbioru danych SlimPajama-627B pochodzącego z kolekcji RedPajama zawierającej Books3. W ostatnich latach firma Adobe intensywnie rozwijała sztuczną inteligencję. Począwszy od 2023 r. firma uruchomiła wiele usług sztucznej inteligencji, przy czym Firefly to pakiet do generowania multimediów oparty na sztucznej inteligencji, przeznaczony do tworzenia obrazów, filmów i innych treści multimedialnych na podstawie komunikatów tekstowych i danych wejściowych.
SlimLM reprezentuje serię małych modeli językowych, które firma Adobe zoptymalizowała specjalnie pod kątem zadań związanych z obsługą dokumentów na urządzeniach mobilnych. Modele te umożliwiają takie funkcje, jak podsumowywanie dokumentów, wydobywanie kluczowych informacji i zapewnianie pomocy kontekstowej bezpośrednio w aplikacjach mobilnych. Cegła suszona na słońcu stwierdza że wstępnie przeszkolił SlimLM przy użyciu zestawu danych SlimPajama-627B. Cerebra wydany ten zbiór danych w czerwcu 2023 r. jako zdeduplikowany, wielokorporowy zasób typu open source przeznaczony do uczenia dużych modeli językowych. Zbiór danych agreguje różne źródła tekstowe po usunięciu duplikatów, aby poprawić efektywność uczenia i wydajność modelu. Elizabeth Lyon, która specjalizuje się w przewodnikach po pisaniu literatury faktu, wszczęła pozew, utrzymując, że Adobe włączyło pirackie wersje wielu książek, w tym jej własnych dzieł, do procesu szkoleniowego dla SlimLM. Pozew ma na celu uzyskanie statusu pozwu zbiorowego w celu reprezentowania innych autorów, których to dotyczy. W pozwie szczegółowo opisano, w jaki sposób zbiór danych SlimPajama powstał ze zbioru danych RedPajama, który obejmuje kolekcję Books3 obejmującą 191 000 książek. Najpierw Reuters zgłoszone na zgłoszeniu. W skardze stwierdza się dosłownie: „Zbiór danych SlimPajama został utworzony poprzez kopiowanie zbioru danych RedPajama i manipulowanie nim (w tym kopiowanie Books3)”. Kontynuuje: „Zatem, ponieważ jest to pochodna kopia zbioru danych RedPajama, SlimPajama zawiera zbiór danych Books3, w tym dzieła chronione prawami autorskimi Powoda i członków Klasy”. Lyon twierdzi, że w danych sprzed szkolenia pojawiły się jej materiały chronione prawem autorskim bez jej zgody ani wynagrodzenia. Books3 wielokrotnie pojawiał się w sporach prawnych w sektorze sztucznej inteligencji, ponieważ programiści wykorzystywali ją do szkolenia generatywnych systemów sztucznej inteligencji. Zbiór zawiera zdigitalizowane teksty różnych gatunków i autorów, co czyni go obszernym, ale kontrowersyjnym korpusem szkoleniowym. RedPajama, do której należy Books3, również była wspominana w wielu sprawach sądowych.





