Naukowcy z Bielefeld University i Purdue University opublikowali Duże modele językowe nie symulują ludzkiej psychologiiprzedstawiając dowody koncepcyjne i empiryczne, że dużych modeli językowych (LLM) nie można traktować jako spójnych symulatorów ludzkich odpowiedzi psychologicznych (Schröder i in. 2025).
Tło i zakres
Od 2018 r. LLM, takie jak GPT-3.5, GPT-4 i LAMA-3.1 były stosowane do zadań od tworzenia treści po edukację (Schröder i in. 2025). Niektórzy badacze zaproponowali, aby LLM mogły zastąpić ludzkich uczestników w badaniach psychologicznych, odpowiadając na podpowiedzi opisujące osobowość, przedstawiają bodziec i stanowią kwestionariusz (Almeida i in. 2024; Kwok i in. 2024). Model Centaur, wydany przez Binz i in. (2025), został dopracowany w przybliżeniu 10 milionów ludzkich odpowiedzi z 160 eksperymentów Aby wygenerować ludzkie odpowiedzi w takich ustawieniach (Binz i in. 2025).
Wcześniejsze prace wykazały wysokie dostosowanie między LLM a ludzkimi osądami moralnymi. Na przykład Dillion i in. (2023) zgłosił korelację 0,95 między ocenami GPT-3,5 a ocenami ludzi 464 Scenariusze moralne. Badania kontrolne z GPT-4O sugerowały rozumowanie moralne uznane za bardziej godne zaufania i poprawne niż reakcje etyki ludzkie lub ekspertów (Dillion i in. 2025). Specjalistyczne modele, takie jak Delphi, przeszkoleni w zakresie moralnych osądów, również przewyższały ogólne llms w zadaniach rozumowania moralnego (Jiang i in. 2025).
Krytyki koncepcyjne
Autorzy podsumowują wiele krytyków traktowania LLM jako symulatorów ludzkiej psychologii. Po pierwsze, LLM często reagują niespójnie na instrukcje, z jakością wyjściową w dużym stopniu zależnym od szybkich szczegółów i kadrowania (Zhu i in. 2024; Wang i in. 2025). Po drugie, wyniki różnią się w zależności od typów modeli i ponowne frazy tej samej monitu (MA 2024). Po trzecie, podczas gdy LLM mogą przybliżać przeciętne ludzkie reakcje, nie odtwarzają pełnej wariancji ludzkich opinii, w tym różnorodności kulturowej (Rime 2025; Kwok i in. 2024).
Stronniczość to kolejny problem. LLM dziedziczą uprzedzenia kulturowe, płci, zawodowe i społeczno-ekonomiczne z danych szkoleniowych, które mogą systematycznie różnić się od uprzedzeń ludzkich (Rossi i in. 2024). Tworzą również „halucynacje” – faktycznie niepoprawną lub fikcyjną zawartość – bez wewnętrznego mechanizmu rozróżniania prawdy (Huang i in. 2025; Reddy i in. 2024).
Praca teoretyczna wspiera te krytyki. Van Rooij i in. (2024) Matematycznie wykazali, że żaden model obliczeniowy wyszkolony wyłącznie na temat danych obserwacyjnych nie może pasować do ludzkich odpowiedzi we wszystkich wejściach. Z punktu widzenia uczenia maszynowego autorzy twierdzą, że uogólnienie LLM ogranicza się do sekwencji tokenów podobnych do danych treningowych, a nie do nowych danych wejściowych o różnych znaczeniach. Ma to kluczowe znaczenie, ponieważ stosowanie LLM jako symulowanych uczestników wymaga znaczącego uogólnienia na nowe konfiguracje eksperymentalne.
Testy empiryczne z scenariuszami moralnymi
Zespół przetestował swój argument za pomocą 30 Scenariusze moralne z Dillion i in. (2023) z ocenami ludzi z wcześniejszych badań (Clifford i in. 2015; Cook i Kuhn 2021; Effron 2022; Grizzard i in. 2021; Mickelberg i in. 2022). Każdy scenariusz został przedstawiony w oryginalnym sformułowaniu i w nieco przeredagowanej wersji o zmienionym znaczeniu, ale podobnych sekwencjach tokenów. Na przykład „odetnij brodę z lokalnego starszego, aby go zawstydzić”, „odciął brodę z miejscowego starszego, aby go ogolić” (Schröder i in. 2025).
Uczestnicy ludzcy (N = 374Mag =39,54SD =12.53) rekrutowano za pośrednictwem płodnych i losowo przypisanych do warunków oryginalnych lub przeredagowanych. Ocenili każde zachowanie w skali od -4 (wyjątkowo nieetyczne) do +4 (niezwykle etyczne). Oceny LLM uzyskano z GPT-3,5, GPT-4 (MINI), LAMA-3.1 70B i Centaur, przy czym każde zapytanie się powtarzano 10 czasy uwzględnienia losowej zmienności (Schröder i in. 2025).
Wyniki
W przypadku pozycji oryginalnych korelacje między ocenami ludzkimi i LLM replikowane wcześniejsze wyniki: GPT-3.5 i GPT-4 wykazały korelacje powyżej 0,89 z ocenami ludzkimi, podczas gdy LAMA-3.1 i Centaur również wykazywały wysokie wyrównanie (r ≥ 0,80) (Schröder i in. 2025). Jednak w przypadku przeredagowanych pozycji oceny ludzkie spadły w korelacji 0,54 z ich oryginalnymi ocenami, odzwierciedlającymi sensiti





