Eksperyment Reddit, który ujawnił cichą moc AI do przekonania

Duże modele językowe nie tylko zmieniają sposób zbierania informacji. Zaczynają po cichu kształtować opinie w ustawieniach w świecie rzeczywistym, nie zdając sobie z tego sprawy. Ta niepokojąca rzeczywistość uderzyła społeczność R/ChangemyView Reddit na początku tego roku, kiedy naukowcy przeprowadzili tajny eksperyment, aby sprawdzić, czy AI może z powodzeniem przekonać niczego nie podejrzewających użytkowników.

Eksperyment terenowy ukryty na widoku

Naukowcy z University of Zurych prowadzone Miesięczne badanie terenowe w obrębie R/ChangemyViewSubreddit z prawie czterema milionami członków znanych z debat cywilnych i przesuwanych perspektyw. Ich celem była ocena rzeczywistych przekonujących możliwości komentarzy zasilanych AI poza kontrolowanymi ustawieniami laboratoryjnymi. Aby to zrobić, stworzyli półautomatyczne konta napędzane przez duże modele językowe (LLM), które bezpośrednio zaangażowały się w posty użytkowników. Co najważniejsze, nie ujawnili, że odpowiedzi zostały wygenerowane przez AI.

Eksperyment został wstępnie zarejestrowany i zatwierdzony przez Komitet Etyki Uniwersytetu Zurychu, ale ominął zgodę społeczności. W ciągu czterech miesięcy naukowcy opublikowali odpowiedzi na ponad tysiąc dyskusji Reddit, ostatecznie analizując prawie pięćset rozmów po filtrowaniu usuwania. Ich ustalenia stanowią jeden z pierwszych na dużą skalę przebłysku na to, jak AI może wpływać na opinie w naturalnych, nieprzewidywalnych środowiskach.

Jakiś archiwum stworzone przez 404 Media Umożliwia przeglądanie niektórych oryginalnych komentarzy, mimo że wiele innych zostało usuniętych od czasu opublikowania.

Aby zmierzyć skuteczność, badanie przypisało każdą odpowiedź AI do jednej z trzech kategorii leczenia. W stanie „ogólnym” LLM odpowiedziały tylko na podstawie tytułu i ciała postu. W stanie „personalizacji” AI otrzymało również wnioskowane atrybuty oryginalnego plakatu, w tym wiek, płeć, orientacja polityczna i pochodzenie etniczne, zebrane z historii Reddit przy użyciu innego modelu AI. Trzecia grupa, „Community wyrównana”, wykorzystała model dopracowany do komentarzy, które wcześniej uzyskały zgodę w subreddit.

Wyniki były uderzające. Wszystkie trzy podejścia oparte na AI, przewyższały ludzkich komentatorów, osiągając wskaźniki perswazji trzy do sześciu razy wyższe niż ludzka linia bazowa. Personalizacja okazała się najsilniejsza, z wskaźnikiem sukcesu wynoszącym 18 procent, umieszczając ją w 99. percentylu wszystkich użytkowników, w tym doświadczonych debatów Reddit. Nawet ogólne odpowiedzi AI pasowały lub przekroczyły większość ludzkich wysiłków. Odpowiedzi dostosowane do społeczności, choć nieco mniej skuteczne, wciąż znacznie przewyższały przeciętnych użytkowników.

Co ważne, użytkownicy angażujący się z tymi komentarzami generowanymi przez AI nie mieli pojęcia, że rozmawiają z maszynami. Podczas interwencji nikt w społeczności R/ChangemyView nie oznaczał podejrzanej działalności, podkreślając, jak płynnie AI może wtopić się w debaty online, gdy jest właściwie przeszkolona i spersonalizowana.

Kiedy moderatorzy R/ChangemyView odkryli eksperyment, reakcja była szybka i wściekła. W publicznym ogłoszeniu moderatorzy potępili badanie jako „manipulację psychologiczną” i „niepożądane wtargnięcie”, powołując się na wiele naruszeń zasad subredditów, w tym nieujawnione wykorzystanie sztucznej inteligencji i zakazane zautomatyzowane zachowanie. Przywództwo Reddita powtórzyło oburzenie, a dyrektor prawny Ben Lee nazwał działania naukowców „głęboko błędnymi zarówno na poziomie moralnym, jak i prawnym”.

Reddit zakazał wszystkich kont związanych z zespołem University of Zurych i rozpoczął formalne postępowanie sądowe. Tymczasem naukowcy bronili swojego podejścia, argumentując, że potencjalne korzyści z zrozumienia perswazji AI przewyższały ryzyko. Nalegali, aby ich interwencja była niskim ryzykiem, starannie sprawdzona i mogli pomóc w zakłóceniu złośliwych zastosowań sztucznej inteligencji w przyszłości. Jednak krytycy, w tym moderatorzy i wielu użytkowników Reddit, nie byli przekonani. Zwrócili uwagę, że poprzednie badania wykazały podobne spostrzeżenia bez uciekania się do nieskrzeszonych eksperymentów u rzeczywistych osób.

Nastolatki używają chatgpt i biją starego podręcznika inwestowania

Zaufanie w społecznościach internetowych zależy od oczekiwania, że rozmowy są między prawdziwymi ludźmi z autentycznymi perspektywami. Nieujawnione interwencje AI zagrażają tym zaufaniu na poziomie podstawowym. Nawet eksperymenty opracowane z szlachetnymi intencjami mogą erozować granice między prawdziwym dyskursem a manipulacją zaprojektowaną. Odpowiedź Reddita wskazuje na to, jak poważne platformy zaczynają traktować te wyzwania.

Zespół University of Zurych argumentował, że ich praca pomoże w ochronie społeczności przed przyszłymi zagrożeniami AI. Zamiast tego mogli pokazać, jak wrażliwy jest już dyskurs publiczny. Ponieważ AI staje się bardziej wyrafinowana i spersonalizowana, pytanie nie polega już na tym, czy może wpływać na ludzką myśl – w ten sposób społeczeństwa dostosują się, gdy zdadzą sobie sprawę.

Polecane wizerunki