Badanie stwierdza, że LLM nie może niezawodnie symulować psychologii ludzkiej

Naukowcy z Bielefeld University i Purdue University opublikowali Duże modele językowe nie symulują ludzkiej psychologiiprzedstawiając dowody koncepcyjne i empiryczne, że dużych modeli językowych (LLM) nie można traktować jako spójnych symulatorów ludzkich odpowiedzi psychologicznych (Schröder i in. 2025).

Tło i zakres

Od 2018 r. LLM, takie jak GPT-3.5, GPT-4 i LAMA-3.1 były stosowane do zadań od tworzenia treści po edukację (Schröder i in. 2025). Niektórzy badacze zaproponowali, aby LLM mogły zastąpić ludzkich uczestników w badaniach psychologicznych, odpowiadając na podpowiedzi opisujące osobowość, przedstawiają bodziec i stanowią kwestionariusz (Almeida i in. 2024; Kwok i in. 2024). Model Centaur, wydany przez Binz i in. (2025), został dopracowany w przybliżeniu 10 milionów ludzkich odpowiedzi z 160 eksperymentów Aby wygenerować ludzkie odpowiedzi w takich ustawieniach (Binz i in. 2025).

Wcześniejsze prace wykazały wysokie dostosowanie między LLM a ludzkimi osądami moralnymi. Na przykład Dillion i in. (2023) zgłosił korelację 0,95 między ocenami GPT-3,5 a ocenami ludzi 464 Scenariusze moralne. Badania kontrolne z GPT-4O sugerowały rozumowanie moralne uznane za bardziej godne zaufania i poprawne niż reakcje etyki ludzkie lub ekspertów (Dillion i in. 2025). Specjalistyczne modele, takie jak Delphi, przeszkoleni w zakresie moralnych osądów, również przewyższały ogólne llms w zadaniach rozumowania moralnego (Jiang i in. 2025).

Krytyki koncepcyjne

Autorzy podsumowują wiele krytyków traktowania LLM jako symulatorów ludzkiej psychologii. Po pierwsze, LLM często reagują niespójnie na instrukcje, z jakością wyjściową w dużym stopniu zależnym od szybkich szczegółów i kadrowania (Zhu i in. 2024; Wang i in. 2025). Po drugie, wyniki różnią się w zależności od typów modeli i ponowne frazy tej samej monitu (MA 2024). Po trzecie, podczas gdy LLM mogą przybliżać przeciętne ludzkie reakcje, nie odtwarzają pełnej wariancji ludzkich opinii, w tym różnorodności kulturowej (Rime 2025; Kwok i in. 2024).

Stronniczość to kolejny problem. LLM dziedziczą uprzedzenia kulturowe, płci, zawodowe i społeczno-ekonomiczne z danych szkoleniowych, które mogą systematycznie różnić się od uprzedzeń ludzkich (Rossi i in. 2024). Tworzą również „halucynacje” – faktycznie niepoprawną lub fikcyjną zawartość – bez wewnętrznego mechanizmu rozróżniania prawdy (Huang i in. 2025; Reddy i in. 2024).

Praca teoretyczna wspiera te krytyki. Van Rooij i in. (2024) Matematycznie wykazali, że żaden model obliczeniowy wyszkolony wyłącznie na temat danych obserwacyjnych nie może pasować do ludzkich odpowiedzi we wszystkich wejściach. Z punktu widzenia uczenia maszynowego autorzy twierdzą, że uogólnienie LLM ogranicza się do sekwencji tokenów podobnych do danych treningowych, a nie do nowych danych wejściowych o różnych znaczeniach. Ma to kluczowe znaczenie, ponieważ stosowanie LLM jako symulowanych uczestników wymaga znaczącego uogólnienia na nowe konfiguracje eksperymentalne.

Testy empiryczne z scenariuszami moralnymi

Zespół przetestował swój argument za pomocą 30 Scenariusze moralne z Dillion i in. (2023) z ocenami ludzi z wcześniejszych badań (Clifford i in. 2015; Cook i Kuhn 2021; Effron 2022; Grizzard i in. 2021; Mickelberg i in. 2022). Każdy scenariusz został przedstawiony w oryginalnym sformułowaniu i w nieco przeredagowanej wersji o zmienionym znaczeniu, ale podobnych sekwencjach tokenów. Na przykład „odetnij brodę z lokalnego starszego, aby go zawstydzić”, „odciął brodę z miejscowego starszego, aby go ogolić” (Schröder i in. 2025).

Uczestnicy ludzcy (N = 374Mag =39,54SD =12.53) rekrutowano za pośrednictwem płodnych i losowo przypisanych do warunków oryginalnych lub przeredagowanych. Ocenili każde zachowanie w skali od -4 (wyjątkowo nieetyczne) do +4 (niezwykle etyczne). Oceny LLM uzyskano z GPT-3,5, GPT-4 (MINI), LAMA-3.1 70B i Centaur, przy czym każde zapytanie się powtarzano 10 czasy uwzględnienia losowej zmienności (Schröder i in. 2025).

Wyniki

W przypadku pozycji oryginalnych korelacje między ocenami ludzkimi i LLM replikowane wcześniejsze wyniki: GPT-3.5 i GPT-4 wykazały korelacje powyżej 0,89 z ocenami ludzkimi, podczas gdy LAMA-3.1 i Centaur również wykazywały wysokie wyrównanie (r ≥ 0,80) (Schröder i in. 2025). Jednak w przypadku przeredagowanych pozycji oceny ludzkie spadły w korelacji 0,54 z ich oryginalnymi ocenami, odzwierciedlającymi sensiti

Tags: Ai LLMS

Badanie stwierdza, że LLM nie może niezawodnie symulować psychologii ludzkiej

Related Posts

OpenAI GPT 5.2 rozwiązuje problem matematyczny Erdő w 15 minut

Appfigures: wydatki na aplikacje mobilne osiągnęły rekordową kwotę 155,8 miliarda dolarów

Globalny niedobór układów pamięci powoduje gwałtowny wzrost cen komputerów PC

Inżynierowie budują roboty inspirowane konikami polnymi, aby rozwiązać problem zużycia baterii

Badanie natury przewiduje, że do 2050 r. powstanie 2B urządzeń zdrowotnych do noszenia

Imperial College London rozwija sztuczną inteligencję, aby przyspieszyć odkrywanie leków nasercowych

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Badanie stwierdza, że LLM nie może niezawodnie symulować psychologii ludzkiej

Tło i zakres

Krytyki koncepcyjne

Testy empiryczne z scenariuszami moralnymi

Wyniki

Related Posts

OpenAI GPT 5.2 rozwiązuje problem matematyczny Erdő w 15 minut

Appfigures: wydatki na aplikacje mobilne osiągnęły rekordową kwotę 155,8 miliarda dolarów

Globalny niedobór układów pamięci powoduje gwałtowny wzrost cen komputerów PC

Inżynierowie budują roboty inspirowane konikami polnymi, aby rozwiązać problem zużycia baterii

Badanie natury przewiduje, że do 2050 r. powstanie 2B urządzeń zdrowotnych do noszenia

Imperial College London rozwija sztuczną inteligencję, aby przyspieszyć odkrywanie leków nasercowych

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us