Nowe badanie z New York University i University of Tübingenprowadzony przez Hanna M. Dettki, Brenden M. Lake, Charley M. Wu i Bob Rehderpyta, czy sztuczna inteligencja może uzasadnić przyczyny tak jak ludzie, czy też opiera się na wzorcach. Ich papier: „Czy duże modele językowe rozumują, że przyczynowo się podobają? Jeszcze lepiej?”, Sonduje cztery popularne modele-GPT-3.5, GPT-4O, Claude-3 i Gemini-Pro-aby zobaczyć, czy chwytają złożone struktury przyczynowe, czy tylko naśladują język ludzki.
Jak badanie testowało rozumowanie przyczynowe w AI
Naukowcy porównali rozumowanie ludzkie z czterema LLM –GPT-3.5, GPT-4O, Claude-3 i Gemini-Pro– Zastosowanie Wykresy zderzakówklasyczny test wnioskowania przyczynowego. Uczestnicy (zarówno ludzcy, jak i AI) zostali poproszeni o ocenę prawdopodobieństwa zdarzenia, biorąc pod uwagę pewne związki przyczynowe. Podstawowe pytanie: czy LLM są przyczynowo przyczynowo w taki sam sposób, jak ludzie, czy też podążają za inną logiką?
AI obsługuje teraz symulacje molekularne: dzięki mdcrow
Kluczowe ustalenia: AI może rozumować, ale nie lubi ludzi
Wyniki ujawnione spektrum przyczynowego rozumowania Wśród modeli AI.
- GPT-4O i Claude-3 Pokazał najwięcej Normatywne rozumowanieco oznacza, że podążali za teorią prawdopodobieństwa bardziej niż uczestnicy ludzcy.
- Gemini-Pro i GPT-3.5z drugiej strony, wyświetlałem więcej Rozumowanie asocjacyjneco oznacza, że bardziej polegali na wzorcach statystycznych niż ścisłej logice przyczynowej.
- Wszystkie modele wykazywały uprzedzeniaodchylenie od oczekiwanej niezależności przyczyn. Jednakże, Claude-3 był najmniej stronniczyco oznacza, że najbardziej ściśle przestrzegał matematycznych norm przyczynowych.
Co ciekawe, Ludzie często stosują heurystykę To odbiegające od ścisłej teorii prawdopodobieństwa – takich jak efekt „wyjaśniający”, w którym obserwowanie jednej przyczyny zmniejsza prawdopodobieństwo innego. Podczas gdy modele AI rozpoznały ten efekt, ich odpowiedzi różniły się znacznie w zależności od danych szkoleniowych i kontekstu.
AI kontra rozumowanie ludzkie: podstawowa różnica
Jednym z najbardziej intrygujących informacji z badania jest to, że LLMS Nie tylko naśladuj ludzkie rozumowanie—Tę inaczej zbliżają się do przyczynowości. W przeciwieństwie do ludzi, których osądy pozostały względnie stabilne w różnych kontekstach, Modele AI dostosowały swoje rozumowanie w zależności od wiedzy domenowej (np. Ekonomia vs. socjologia).
- W szczególności GPT-4O traktowało powiązania przyczynowe jako deterministycznezakładając, że niektóre przyczyny zawsze wytwarzają określone efekty.
- Natomiast ludzie uwzględniają niepewnośćuznając, że relacje przyczynowe nie zawsze są absolutne.
Sugeruje to, że chociaż sztuczna inteligencja może być dokładniej W niektórych zadaniach ustrukturyzowanych to Brakuje elastyczności ludzkiej myśli w kontaktach z niejednoznacznymi lub wielofunkcyjnymi sytuacjami.
Dlaczego ma to znaczenie dla sztucznej inteligencji w podejmowaniu decyzji
Badanie ujawnia ważne ograniczenie: LLM nie mogą uogólniać wiedzy przyczynowej poza danymi szkoleniowymi bez silnych wskazówek. Ma to kluczowe implikacje dla rozmieszczenia sztucznej inteligencji w rzeczywistym podejmowaniu decyzji, od diagnoz medycznych po prognozowanie ekonomiczne.
LLM mogą przewyższyć ludzi w wnioskowaniu opartym na prawdopodobieństwie, ale ich rozumowanie pozostaje zasadniczo różne-często brakuje intuicyjnego, adaptacyjnego logiki, które ludzie używają w codziennym rozwiązywaniu problemów.
Innymi słowy, sztuczna inteligencja może uzasadnić przyczynowość – ale nie do nas podobnych.
Wyróżniony obraz obrazu: Kerem Gülen/Ideogram