Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Badanie stwierdza, że LLM nie może niezawodnie symulować psychologii ludzkiej

byKerem Gülen
12 sierpnia 2025
in Research
Home Research
Share on FacebookShare on Twitter

Naukowcy z Bielefeld University i Purdue University opublikowali Duże modele językowe nie symulują ludzkiej psychologiiprzedstawiając dowody koncepcyjne i empiryczne, że dużych modeli językowych (LLM) nie można traktować jako spójnych symulatorów ludzkich odpowiedzi psychologicznych (Schröder i in. 2025).

Tło i zakres

Od 2018 r. LLM, takie jak GPT-3.5, GPT-4 i LAMA-3.1 były stosowane do zadań od tworzenia treści po edukację (Schröder i in. 2025). Niektórzy badacze zaproponowali, aby LLM mogły zastąpić ludzkich uczestników w badaniach psychologicznych, odpowiadając na podpowiedzi opisujące osobowość, przedstawiają bodziec i stanowią kwestionariusz (Almeida i in. 2024; Kwok i in. 2024). Model Centaur, wydany przez Binz i in. (2025), został dopracowany w przybliżeniu 10 milionów ludzkich odpowiedzi z 160 eksperymentów Aby wygenerować ludzkie odpowiedzi w takich ustawieniach (Binz i in. 2025).

Wcześniejsze prace wykazały wysokie dostosowanie między LLM a ludzkimi osądami moralnymi. Na przykład Dillion i in. (2023) zgłosił korelację 0,95 między ocenami GPT-3,5 a ocenami ludzi 464 Scenariusze moralne. Badania kontrolne z GPT-4O sugerowały rozumowanie moralne uznane za bardziej godne zaufania i poprawne niż reakcje etyki ludzkie lub ekspertów (Dillion i in. 2025). Specjalistyczne modele, takie jak Delphi, przeszkoleni w zakresie moralnych osądów, również przewyższały ogólne llms w zadaniach rozumowania moralnego (Jiang i in. 2025).

Krytyki koncepcyjne

Autorzy podsumowują wiele krytyków traktowania LLM jako symulatorów ludzkiej psychologii. Po pierwsze, LLM często reagują niespójnie na instrukcje, z jakością wyjściową w dużym stopniu zależnym od szybkich szczegółów i kadrowania (Zhu i in. 2024; Wang i in. 2025). Po drugie, wyniki różnią się w zależności od typów modeli i ponowne frazy tej samej monitu (MA 2024). Po trzecie, podczas gdy LLM mogą przybliżać przeciętne ludzkie reakcje, nie odtwarzają pełnej wariancji ludzkich opinii, w tym różnorodności kulturowej (Rime 2025; Kwok i in. 2024).

Stronniczość to kolejny problem. LLM dziedziczą uprzedzenia kulturowe, płci, zawodowe i społeczno-ekonomiczne z danych szkoleniowych, które mogą systematycznie różnić się od uprzedzeń ludzkich (Rossi i in. 2024). Tworzą również „halucynacje” – faktycznie niepoprawną lub fikcyjną zawartość – bez wewnętrznego mechanizmu rozróżniania prawdy (Huang i in. 2025; Reddy i in. 2024).

Praca teoretyczna wspiera te krytyki. Van Rooij i in. (2024) Matematycznie wykazali, że żaden model obliczeniowy wyszkolony wyłącznie na temat danych obserwacyjnych nie może pasować do ludzkich odpowiedzi we wszystkich wejściach. Z punktu widzenia uczenia maszynowego autorzy twierdzą, że uogólnienie LLM ogranicza się do sekwencji tokenów podobnych do danych treningowych, a nie do nowych danych wejściowych o różnych znaczeniach. Ma to kluczowe znaczenie, ponieważ stosowanie LLM jako symulowanych uczestników wymaga znaczącego uogólnienia na nowe konfiguracje eksperymentalne.

Testy empiryczne z scenariuszami moralnymi

Zespół przetestował swój argument za pomocą 30 Scenariusze moralne z Dillion i in. (2023) z ocenami ludzi z wcześniejszych badań (Clifford i in. 2015; Cook i Kuhn 2021; Effron 2022; Grizzard i in. 2021; Mickelberg i in. 2022). Każdy scenariusz został przedstawiony w oryginalnym sformułowaniu i w nieco przeredagowanej wersji o zmienionym znaczeniu, ale podobnych sekwencjach tokenów. Na przykład „odetnij brodę z lokalnego starszego, aby go zawstydzić”, „odciął brodę z miejscowego starszego, aby go ogolić” (Schröder i in. 2025).

Uczestnicy ludzcy (N = 374Mag =39,54SD =12.53) rekrutowano za pośrednictwem płodnych i losowo przypisanych do warunków oryginalnych lub przeredagowanych. Ocenili każde zachowanie w skali od -4 (wyjątkowo nieetyczne) do +4 (niezwykle etyczne). Oceny LLM uzyskano z GPT-3,5, GPT-4 (MINI), LAMA-3.1 70B i Centaur, przy czym każde zapytanie się powtarzano 10 czasy uwzględnienia losowej zmienności (Schröder i in. 2025).

Wyniki

W przypadku pozycji oryginalnych korelacje między ocenami ludzkimi i LLM replikowane wcześniejsze wyniki: GPT-3.5 i GPT-4 wykazały korelacje powyżej 0,89 z ocenami ludzkimi, podczas gdy LAMA-3.1 i Centaur również wykazywały wysokie wyrównanie (r ≥ 0,80) (Schröder i in. 2025). Jednak w przypadku przeredagowanych pozycji oceny ludzkie spadły w korelacji 0,54 z ich oryginalnymi ocenami, odzwierciedlającymi sensiti

Tags: AiLLMS

Related Posts

OpenAI GPT 5.2 rozwiązuje problem matematyczny Erdő w 15 minut

OpenAI GPT 5.2 rozwiązuje problem matematyczny Erdő w 15 minut

19 stycznia 2026
Appfigures: wydatki na aplikacje mobilne osiągnęły rekordową kwotę 155,8 miliarda dolarów

Appfigures: wydatki na aplikacje mobilne osiągnęły rekordową kwotę 155,8 miliarda dolarów

15 stycznia 2026
Globalny niedobór układów pamięci powoduje gwałtowny wzrost cen komputerów PC

Globalny niedobór układów pamięci powoduje gwałtowny wzrost cen komputerów PC

14 stycznia 2026
Inżynierowie budują roboty inspirowane konikami polnymi, aby rozwiązać problem zużycia baterii

Inżynierowie budują roboty inspirowane konikami polnymi, aby rozwiązać problem zużycia baterii

14 stycznia 2026
Badanie natury przewiduje, że do 2050 r. powstanie 2B urządzeń zdrowotnych do noszenia

Badanie natury przewiduje, że do 2050 r. powstanie 2B urządzeń zdrowotnych do noszenia

7 stycznia 2026
Imperial College London rozwija sztuczną inteligencję, aby przyspieszyć odkrywanie leków nasercowych

Imperial College London rozwija sztuczną inteligencję, aby przyspieszyć odkrywanie leków nasercowych

6 stycznia 2026

Recent Posts

  • Firma Microsoft udostępnia awaryjną aktualizację OOB, aby naprawić pętlę ponownego uruchamiania systemu Windows 11
  • Musk żąda 134 miliardów dolarów od OpenAI i Microsoftu
  • Threads dociera do 141 milionów użytkowników dziennie, aby zdobyć mobilny tron ​​​​od X
  • Integracja Portfela Google i Zadań ujawnia się w nowym wycieku dotyczącym Pixela 10
  • iOS 27: Wszystko, co wiemy do tej pory

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.