Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Badanie stwierdza, że LLM nie może niezawodnie symulować psychologii ludzkiej

byKerem Gülen
12 sierpnia 2025
in Badania
Home Badania
Share on FacebookShare on Twitter
Google Preferred Source

Naukowcy z Bielefeld University i Purdue University opublikowali Duże modele językowe nie symulują ludzkiej psychologiiprzedstawiając dowody koncepcyjne i empiryczne, że dużych modeli językowych (LLM) nie można traktować jako spójnych symulatorów ludzkich odpowiedzi psychologicznych (Schröder i in. 2025).

Tło i zakres

Od 2018 r. LLM, takie jak GPT-3.5, GPT-4 i LAMA-3.1 były stosowane do zadań od tworzenia treści po edukację (Schröder i in. 2025). Niektórzy badacze zaproponowali, aby LLM mogły zastąpić ludzkich uczestników w badaniach psychologicznych, odpowiadając na podpowiedzi opisujące osobowość, przedstawiają bodziec i stanowią kwestionariusz (Almeida i in. 2024; Kwok i in. 2024). Model Centaur, wydany przez Binz i in. (2025), został dopracowany w przybliżeniu 10 milionów ludzkich odpowiedzi z 160 eksperymentów Aby wygenerować ludzkie odpowiedzi w takich ustawieniach (Binz i in. 2025).

Wcześniejsze prace wykazały wysokie dostosowanie między LLM a ludzkimi osądami moralnymi. Na przykład Dillion i in. (2023) zgłosił korelację 0,95 między ocenami GPT-3,5 a ocenami ludzi 464 Scenariusze moralne. Badania kontrolne z GPT-4O sugerowały rozumowanie moralne uznane za bardziej godne zaufania i poprawne niż reakcje etyki ludzkie lub ekspertów (Dillion i in. 2025). Specjalistyczne modele, takie jak Delphi, przeszkoleni w zakresie moralnych osądów, również przewyższały ogólne llms w zadaniach rozumowania moralnego (Jiang i in. 2025).

Krytyki koncepcyjne

Autorzy podsumowują wiele krytyków traktowania LLM jako symulatorów ludzkiej psychologii. Po pierwsze, LLM często reagują niespójnie na instrukcje, z jakością wyjściową w dużym stopniu zależnym od szybkich szczegółów i kadrowania (Zhu i in. 2024; Wang i in. 2025). Po drugie, wyniki różnią się w zależności od typów modeli i ponowne frazy tej samej monitu (MA 2024). Po trzecie, podczas gdy LLM mogą przybliżać przeciętne ludzkie reakcje, nie odtwarzają pełnej wariancji ludzkich opinii, w tym różnorodności kulturowej (Rime 2025; Kwok i in. 2024).

Stronniczość to kolejny problem. LLM dziedziczą uprzedzenia kulturowe, płci, zawodowe i społeczno-ekonomiczne z danych szkoleniowych, które mogą systematycznie różnić się od uprzedzeń ludzkich (Rossi i in. 2024). Tworzą również „halucynacje” – faktycznie niepoprawną lub fikcyjną zawartość – bez wewnętrznego mechanizmu rozróżniania prawdy (Huang i in. 2025; Reddy i in. 2024).

Praca teoretyczna wspiera te krytyki. Van Rooij i in. (2024) Matematycznie wykazali, że żaden model obliczeniowy wyszkolony wyłącznie na temat danych obserwacyjnych nie może pasować do ludzkich odpowiedzi we wszystkich wejściach. Z punktu widzenia uczenia maszynowego autorzy twierdzą, że uogólnienie LLM ogranicza się do sekwencji tokenów podobnych do danych treningowych, a nie do nowych danych wejściowych o różnych znaczeniach. Ma to kluczowe znaczenie, ponieważ stosowanie LLM jako symulowanych uczestników wymaga znaczącego uogólnienia na nowe konfiguracje eksperymentalne.

Testy empiryczne z scenariuszami moralnymi

Zespół przetestował swój argument za pomocą 30 Scenariusze moralne z Dillion i in. (2023) z ocenami ludzi z wcześniejszych badań (Clifford i in. 2015; Cook i Kuhn 2021; Effron 2022; Grizzard i in. 2021; Mickelberg i in. 2022). Każdy scenariusz został przedstawiony w oryginalnym sformułowaniu i w nieco przeredagowanej wersji o zmienionym znaczeniu, ale podobnych sekwencjach tokenów. Na przykład „odetnij brodę z lokalnego starszego, aby go zawstydzić”, „odciął brodę z miejscowego starszego, aby go ogolić” (Schröder i in. 2025).

Uczestnicy ludzcy (N = 374Mag =39,54SD =12.53) rekrutowano za pośrednictwem płodnych i losowo przypisanych do warunków oryginalnych lub przeredagowanych. Ocenili każde zachowanie w skali od -4 (wyjątkowo nieetyczne) do +4 (niezwykle etyczne). Oceny LLM uzyskano z GPT-3,5, GPT-4 (MINI), LAMA-3.1 70B i Centaur, przy czym każde zapytanie się powtarzano 10 czasy uwzględnienia losowej zmienności (Schröder i in. 2025).

Wyniki

W przypadku pozycji oryginalnych korelacje między ocenami ludzkimi i LLM replikowane wcześniejsze wyniki: GPT-3.5 i GPT-4 wykazały korelacje powyżej 0,89 z ocenami ludzkimi, podczas gdy LAMA-3.1 i Centaur również wykazywały wysokie wyrównanie (r ≥ 0,80) (Schröder i in. 2025). Jednak w przypadku przeredagowanych pozycji oceny ludzkie spadły w korelacji 0,54 z ich oryginalnymi ocenami, odzwierciedlającymi sensiti

Tags: AiLLMS

Related Posts

Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych

Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych

3 czerwca 2026
Sondaż pokazuje, że 71% Amerykanów uważa, że ​​sztuczna inteligencja rozwija się zbyt szybko

Sondaż pokazuje, że 71% Amerykanów uważa, że ​​sztuczna inteligencja rozwija się zbyt szybko

20 maja 2026
NordVPN stwierdza, że ​​skradzione brytyjskie karty płatnicze kosztują w ciemnej sieci 12 dolarów

NordVPN stwierdza, że ​​skradzione brytyjskie karty płatnicze kosztują w ciemnej sieci 12 dolarów

20 maja 2026
Centra danych i kryptowaluty mogą podnieść koszty energii o 57% do 2030 r

Centra danych i kryptowaluty mogą podnieść koszty energii o 57% do 2030 r

20 maja 2026
Badania wykazały, że umiejętności związane ze sztuczną inteligencją są obecnie niezbędne przy awansach zawodowych i podwyżkach

Badania wykazały, że umiejętności związane ze sztuczną inteligencją są obecnie niezbędne przy awansach zawodowych i podwyżkach

20 maja 2026
Nowa konstrukcja chipa magnetycznego może przewyższyć dzisiejsze akceleratory AI

Nowa konstrukcja chipa magnetycznego może przewyższyć dzisiejsze akceleratory AI

19 maja 2026

Recent Posts

  • Reguły rezygnacji z wyszukiwania Google AI powodują uruchomienie przeglądarki Enviromates
  • Sony ujawnia God of War: Laufey na PS5
  • Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych
  • Microsoft przedstawia Surface RTX Spark Dev Box dla obciążeń AI
  • Według doniesień brakuje nowych chipów Intel Core Ultra

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.