Badacze Openai identyfikują matematyczne przyczyny halucynacji AI

Naukowcy z Openai opublikowali artykuł, diagnozując, dlaczego duże modele językowe, takie jak halucynian chatgpt lub pewnie generują fałszywe informacje.

Badanie Używa analizy matematycznej, aby wyjaśnić, że halucynacje są nieuniknionym wynikiem tego, jak te modele dokonują prognoz, nawet gdy są przeszkolone w zakresie doskonałych danych. Podstawowymi przyczynami są akumulacja błędów i wadliwe badania oceny.

W jaki sposób sekwencyjne prognozy prowadzą do błędów

Artykuł wyjaśnia, że LLM działają w procesie autoregresyjnym, przewidując następne słowo w sekwencji opartej na słowach, które pojawiły się przed nim. Stwarza to łańcuch, w którym pojedynczy wczesny błąd może się propagować i wzmacniać, co prowadzi do całkowicie niepoprawnego stwierdzenia. Dowód matematyczny naukowców pokazuje, że poziom błędu generowania pełnego zdania jest co najmniej dwukrotnie większy niż wskaźnik błędu prostego pytania tak/nie, po prostu z powodu tego efektu złożonego. To ograniczenie strukturalne oznacza, że halucynacji nie można całkowicie wyeliminować poprzez skalowanie mocy obliczeniowej lub poprawę danych szkoleniowych, ponieważ problem dotyczy architektury predykcyjnej. Problem jest gorszy dla faktów, które rzadko pojawiają się w danych szkoleniowych. Badanie wykazało, że około 20% urodzin znaczących liczb pojawiło się tylko raz w zestawie treningowym, co prowadzi do wyjściowego poziomu błędu wynoszącego co najmniej 20% w przypadku tych zapytań. Jako praktyczny przykład naukowcy zapytali najnowocześniejsze modele na urodziny Adama Kalai, jednego z autorów artykułu. Modele pewnie dostarczyły kilku różnych niepoprawnych dat, pokazując wzór wytwarzania prawdopodobnych brzmiących szczegółów w celu wypełnienia luk w wiedzy.

Wskaźniki oceny ukaraj uczciwość i zachęcają do zgadywania

Badanie krytykuje również odniesienia stosowane do oceny modeli AI. Naukowcy dokonali przeglądu dziesięciu wybitnych punktów odniesienia AI i stwierdzili, że dziewięć z nich korzysta z binarnego systemu oceniania: Odpowiedź jest albo w 100% poprawna, albo 100% niepoprawna. W ramach tego systemu odpowiedź „Nie wiem”, otrzymuje ten sam wynik jak całkowicie niewłaściwa odpowiedź – zero. Ta metoda punktacji tworzy to, co artykuł nazywa „epidemią” karania uczciwości. Dowód matematyczny zawarty w badaniu pokazuje, że ten system zachęca modele do odgadnięcia odpowiedzi, ponieważ każde przypuszczenie ma prawdopodobieństwo większe niż zero bycia poprawnym, a tym samym otrzymując wyższy wynik niż wstrzymanie się. To wyjaśnia, dlaczego nawet zaawansowane modele domyślne są pewne wytwarzanie, a nie niepewność.

Proponowane rozwiązania i kompromis między dokładnością a doświadczeniem użytkownika

Aby rozwiązać ten problem, badacze Openai proponują nowe podejście, które integruje oszacowanie zaufania zarówno z zachowaniem modelu, jak i procesu oceny. Modele zostaną przeszkoleni w celu oceny własnej pewności i byłyby oceniane za pomocą systemu punktacji, który karze nieprawidłowe odpowiedzi bardziej niż nagradza prawidłowe. Na przykład monit może poinstruować model, aby „odpowiedzieć tylko wtedy, gdy jesteś przekraczający 75 procent pewny, ponieważ błędy są ukarane 3 punkty, a poprawne odpowiedzi otrzymują 1 punkt”. Wdrożenie to znacznie zmniejszyłoby halucynacje, ale kosztuje. Artykuł szacuje, że w takim systemie modele odpowiedziełyby „nie wiem” na około 30% zapytań użytkowników. Może to być frustrujące dla użytkowników przyzwyczajonych do otrzymywania natychmiastowej odpowiedzi na wszystko, potencjalnie doprowadzając ich do mniej ostrożnych modeli konkurencji. Wysoki koszt obliczeniowy dokładnego pomiaru niepewności sprawia, że takie podejście jest niepraktyczne dla usług konsumenckich o dużej objętości. Jednak artykuł zauważa, że w przypadku profesjonalnych zastosowań o wysokich stawkach w dziedzinach takich jak finanse, medycyna lub projektowanie kosztów błędu jest znacznie większy niż koszt obliczeń, co czyni systemy świadomości niepewności nie tylko opłacalne. Badanie stwierdza, że podstawowe zachęty w AI, które priorytetują zaangażowanie i szybkość priorytetu użytkowników, zapewnią, że halucynacje pozostaną trwałe, dopóki priorytety te nie zostaną przeniesione.

Polecane wizerunki