Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Badacze Openai identyfikują matematyczne przyczyny halucynacji AI

byAytun Çelebi
17 września 2025
in Artificial Intelligence, Research
Home Artificial Intelligence

Naukowcy z Openai opublikowali artykuł, diagnozując, dlaczego duże modele językowe, takie jak halucynian chatgpt lub pewnie generują fałszywe informacje.

Badanie Używa analizy matematycznej, aby wyjaśnić, że halucynacje są nieuniknionym wynikiem tego, jak te modele dokonują prognoz, nawet gdy są przeszkolone w zakresie doskonałych danych. Podstawowymi przyczynami są akumulacja błędów i wadliwe badania oceny.

W jaki sposób sekwencyjne prognozy prowadzą do błędów

Artykuł wyjaśnia, że ​​LLM działają w procesie autoregresyjnym, przewidując następne słowo w sekwencji opartej na słowach, które pojawiły się przed nim. Stwarza to łańcuch, w którym pojedynczy wczesny błąd może się propagować i wzmacniać, co prowadzi do całkowicie niepoprawnego stwierdzenia. Dowód matematyczny naukowców pokazuje, że poziom błędu generowania pełnego zdania jest co najmniej dwukrotnie większy niż wskaźnik błędu prostego pytania tak/nie, po prostu z powodu tego efektu złożonego. To ograniczenie strukturalne oznacza, że ​​halucynacji nie można całkowicie wyeliminować poprzez skalowanie mocy obliczeniowej lub poprawę danych szkoleniowych, ponieważ problem dotyczy architektury predykcyjnej. Problem jest gorszy dla faktów, które rzadko pojawiają się w danych szkoleniowych. Badanie wykazało, że około 20% urodzin znaczących liczb pojawiło się tylko raz w zestawie treningowym, co prowadzi do wyjściowego poziomu błędu wynoszącego co najmniej 20% w przypadku tych zapytań. Jako praktyczny przykład naukowcy zapytali najnowocześniejsze modele na urodziny Adama Kalai, jednego z autorów artykułu. Modele pewnie dostarczyły kilku różnych niepoprawnych dat, pokazując wzór wytwarzania prawdopodobnych brzmiących szczegółów w celu wypełnienia luk w wiedzy.

Wskaźniki oceny ukaraj uczciwość i zachęcają do zgadywania

Badanie krytykuje również odniesienia stosowane do oceny modeli AI. Naukowcy dokonali przeglądu dziesięciu wybitnych punktów odniesienia AI i stwierdzili, że dziewięć z nich korzysta z binarnego systemu oceniania: Odpowiedź jest albo w 100% poprawna, albo 100% niepoprawna. W ramach tego systemu odpowiedź „Nie wiem”, otrzymuje ten sam wynik jak całkowicie niewłaściwa odpowiedź – zero. Ta metoda punktacji tworzy to, co artykuł nazywa „epidemią” karania uczciwości. Dowód matematyczny zawarty w badaniu pokazuje, że ten system zachęca modele do odgadnięcia odpowiedzi, ponieważ każde przypuszczenie ma prawdopodobieństwo większe niż zero bycia poprawnym, a tym samym otrzymując wyższy wynik niż wstrzymanie się. To wyjaśnia, dlaczego nawet zaawansowane modele domyślne są pewne wytwarzanie, a nie niepewność.

Proponowane rozwiązania i kompromis między dokładnością a doświadczeniem użytkownika

Aby rozwiązać ten problem, badacze Openai proponują nowe podejście, które integruje oszacowanie zaufania zarówno z zachowaniem modelu, jak i procesu oceny. Modele zostaną przeszkoleni w celu oceny własnej pewności i byłyby oceniane za pomocą systemu punktacji, który karze nieprawidłowe odpowiedzi bardziej niż nagradza prawidłowe. Na przykład monit może poinstruować model, aby „odpowiedzieć tylko wtedy, gdy jesteś przekraczający 75 procent pewny, ponieważ błędy są ukarane 3 punkty, a poprawne odpowiedzi otrzymują 1 punkt”. Wdrożenie to znacznie zmniejszyłoby halucynacje, ale kosztuje. Artykuł szacuje, że w takim systemie modele odpowiedziełyby „nie wiem” na około 30% zapytań użytkowników. Może to być frustrujące dla użytkowników przyzwyczajonych do otrzymywania natychmiastowej odpowiedzi na wszystko, potencjalnie doprowadzając ich do mniej ostrożnych modeli konkurencji. Wysoki koszt obliczeniowy dokładnego pomiaru niepewności sprawia, że ​​takie podejście jest niepraktyczne dla usług konsumenckich o dużej objętości. Jednak artykuł zauważa, że ​​w przypadku profesjonalnych zastosowań o wysokich stawkach w dziedzinach takich jak finanse, medycyna lub projektowanie kosztów błędu jest znacznie większy niż koszt obliczeń, co czyni systemy świadomości niepewności nie tylko opłacalne. Badanie stwierdza, że ​​podstawowe zachęty w AI, które priorytetują zaangażowanie i szybkość priorytetu użytkowników, zapewnią, że halucynacje pozostaną trwałe, dopóki priorytety te nie zostaną przeniesione.


Polecane wizerunki

Tags: AiBadaniaOpenaiWyróżniony

Related Posts

Laboratoria AI Inwestują w środowiska RL dla agentów autonomicznych

Laboratoria AI Inwestują w środowiska RL dla agentów autonomicznych

17 września 2025
Skala AI zabezpiecza umowę Pentagonu o wartości 100 milionów dolarów na wdrożenie platformy AI

Skala AI zabezpiecza umowę Pentagonu o wartości 100 milionów dolarów na wdrożenie platformy AI

17 września 2025
Narzędzie AI wykorzystuje mammogramy do przewidywania 10-letniego zdrowia serca i ryzyka raka kobiet

Narzędzie AI wykorzystuje mammogramy do przewidywania 10-letniego zdrowia serca i ryzyka raka kobiet

17 września 2025
Google uruchamia platformę AI No-Code Gemini Canvas

Google uruchamia platformę AI No-Code Gemini Canvas

17 września 2025
Google uwalnia Vaultgemma 1b z różnicową prywatnością

Google uwalnia Vaultgemma 1b z różnicową prywatnością

17 września 2025
Antropiczny wskaźnik ekonomiczny ujawnia nierównomierne przyjęcie Claude.ai

Antropiczny wskaźnik ekonomiczny ujawnia nierównomierne przyjęcie Claude.ai

17 września 2025

Recent Posts

  • Laboratoria AI Inwestują w środowiska RL dla agentów autonomicznych
  • Skala AI zabezpiecza umowę Pentagonu o wartości 100 milionów dolarów na wdrożenie platformy AI
  • Narzędzie AI wykorzystuje mammogramy do przewidywania 10-letniego zdrowia serca i ryzyka raka kobiet
  • DJI Mini 5 Pro wprowadza na rynek 1-calowy czujnik, ale pomija oficjalne wydanie USA
  • Google uruchamia platformę AI No-Code Gemini Canvas

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.