Reddit pozywa Perplexity w związku z rzekomym kradzieżą danych na dużą skalę

Reddit ma wniesiony pozew przeciwko firmie Perplexity zajmującej się wyszukiwarkami odpowiedzi i trzem dostawcom usług gromadzenia danych: SerpApi, Oxylabs i AWMProxy. Działania prawne mają na celu powstrzymanie tego, co w skardze Reddita opisano jako bezprawne obchodzenie środków ochrony danych na skalę przemysłową. W skardze zarzucono, że Perplexity jest klientem co najmniej jednej z tych firm zajmujących się gromadzeniem danych. Reddit używa metafory do opisania rzekomej działalności, porównując dostawców do „niedoszłych rabusiów banków”, którzy nie mogąc uzyskać bezpośredniego dostępu do „skarbca” danych firmy, zamiast tego celują w „opancerzoną ciężarówkę” przewożącą informacje. Oznacza to, że oskarżeni uzyskują dostęp do treści Reddita za pośrednictwem kanałów pośrednich. W pozwie stwierdzono, że firma Perplexity woli pozyskiwać dane tymi sposobami, niż zawierać bezpośrednią umowę licencyjną, którą obrała część konkurencji. Z akt sprawy wynika, że w maju 2024 r. Reddit wystosował do firmy Perplexity pismo o zaprzestaniu działalności, żądając zaprzestania pobierania danych z platformy. Według doniesień po doręczeniu tego listu wzrosła liczba cytatów z Reddita w serwisie Perplexity. Aby dokładniej zbadać sprawę, Reddit utworzył na swojej platformie post, który został skonfigurowany tak, aby można go było indeksować wyłącznie przez Google. Firma twierdzi, że „w ciągu kilku godzin” silnik odpowiedzi Perplexity „wygenerował treść” tego konkretnego postu. Reddit utrzymuje, że firma Perplexity mogła zdobyć te treści jedynie w ten sposób, że ona sama lub jej współoskarżeni pobrali treści z Reddita z wyników wyszukiwania Google i szybko zintegrowali je ze swoim systemem.

Samsung wprowadza aplikację Perplexity TV z technologią Vision AI

Treści platformy tworzone przez użytkowników, na które składają się posty napisane i uszeregowane przez ludzi na różne tematy, stały się cennym źródłem do szkolenia modeli sztucznej inteligencji. W 2023 roku Reddit wprowadził zmiany w API, które wywołały protesty użytkowników; firma pozycjonowała te zmiany jako sposób na zapewnienie sobie rekompensaty za wykorzystanie jej danych przez twórców sztucznej inteligencji. Od tego czasu Reddit zawarł umowy licencyjne na dane z takimi firmami, jak OpenAI i Google, i podobno poszukuje dodatkowych ustaleń. To nie pierwsze wyzwanie prawne Reddita w tej dziedzinie; wcześniej pozwała firmę Anthropic, utrzymując, że jej boty w dalszym ciągu uzyskiwały dostęp do witryny, mimo że firma stwierdziła inaczej. Ben Lee, dyrektor prawny Reddita, opisał sytuację jako „gospodarkę prania danych na skalę przemysłową” napędzaną „wyścigiem zbrojeń” opartym na sztucznej inteligencji w celu uzyskania wysokiej jakości treści ludzkich. Stwierdził: „Scrapery omijają zabezpieczenia technologiczne w celu kradzieży danych, a następnie sprzedają je klientom spragnionym materiałów szkoleniowych. Reddit jest głównym celem, ponieważ jest to jeden z największych i najbardziej dynamicznych zbiorów ludzkich rozmów, jakie kiedykolwiek stworzono.” Lee określił współoskarżonych Oxylabs UAB, AWM Proxy i SerpAI jako „podręcznikowe przykłady tego nielegalnego zachowania”, opisując ich jako mało znanego litewskiego scrapera, dawny rosyjski botnet i firmę reklamującą wątpliwe taktyki. Dodał: „Nie mogąc bezpośrednio zeskrobać Reddita, maskują swoją tożsamość, ukrywają swoje lokalizacje i ukrywają swoje skrobaki internetowe, aby kraść treści Reddit z wyszukiwarki Google”. W odpowiedzi na pozew szef komunikacji firmy Perplexity, Jesse Dwyer, oświadczył, że firma nie otrzymała jeszcze wniosku prawnego. Dwyer powiedział Krawędź„zawsze będziemy energicznie walczyć o prawa użytkowników do swobodnego i sprawiedliwego dostępu do wiedzy publicznej”. Dodał: „Nasze podejście pozostaje oparte na zasadach i odpowiedzialne, ponieważ zapewniamy oparte na faktach odpowiedzi za pomocą dokładnej sztucznej inteligencji i nie będziemy tolerować gróźb podważających otwartość i interes publiczny”.

Autor wyróżnionego obrazu