Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Badacze Openai identyfikują matematyczne przyczyny halucynacji AI

byAytun Çelebi
17 września 2025
in Badania, Sztuczna Inteligencja
Home Badania
Share on FacebookShare on Twitter
Google Preferred Source

Naukowcy z Openai opublikowali artykuł, diagnozując, dlaczego duże modele językowe, takie jak halucynian chatgpt lub pewnie generują fałszywe informacje.

Badanie Używa analizy matematycznej, aby wyjaśnić, że halucynacje są nieuniknionym wynikiem tego, jak te modele dokonują prognoz, nawet gdy są przeszkolone w zakresie doskonałych danych. Podstawowymi przyczynami są akumulacja błędów i wadliwe badania oceny.

W jaki sposób sekwencyjne prognozy prowadzą do błędów

Artykuł wyjaśnia, że ​​LLM działają w procesie autoregresyjnym, przewidując następne słowo w sekwencji opartej na słowach, które pojawiły się przed nim. Stwarza to łańcuch, w którym pojedynczy wczesny błąd może się propagować i wzmacniać, co prowadzi do całkowicie niepoprawnego stwierdzenia. Dowód matematyczny naukowców pokazuje, że poziom błędu generowania pełnego zdania jest co najmniej dwukrotnie większy niż wskaźnik błędu prostego pytania tak/nie, po prostu z powodu tego efektu złożonego. To ograniczenie strukturalne oznacza, że ​​halucynacji nie można całkowicie wyeliminować poprzez skalowanie mocy obliczeniowej lub poprawę danych szkoleniowych, ponieważ problem dotyczy architektury predykcyjnej. Problem jest gorszy dla faktów, które rzadko pojawiają się w danych szkoleniowych. Badanie wykazało, że około 20% urodzin znaczących liczb pojawiło się tylko raz w zestawie treningowym, co prowadzi do wyjściowego poziomu błędu wynoszącego co najmniej 20% w przypadku tych zapytań. Jako praktyczny przykład naukowcy zapytali najnowocześniejsze modele na urodziny Adama Kalai, jednego z autorów artykułu. Modele pewnie dostarczyły kilku różnych niepoprawnych dat, pokazując wzór wytwarzania prawdopodobnych brzmiących szczegółów w celu wypełnienia luk w wiedzy.

Wskaźniki oceny ukaraj uczciwość i zachęcają do zgadywania

Badanie krytykuje również odniesienia stosowane do oceny modeli AI. Naukowcy dokonali przeglądu dziesięciu wybitnych punktów odniesienia AI i stwierdzili, że dziewięć z nich korzysta z binarnego systemu oceniania: Odpowiedź jest albo w 100% poprawna, albo 100% niepoprawna. W ramach tego systemu odpowiedź „Nie wiem”, otrzymuje ten sam wynik jak całkowicie niewłaściwa odpowiedź – zero. Ta metoda punktacji tworzy to, co artykuł nazywa „epidemią” karania uczciwości. Dowód matematyczny zawarty w badaniu pokazuje, że ten system zachęca modele do odgadnięcia odpowiedzi, ponieważ każde przypuszczenie ma prawdopodobieństwo większe niż zero bycia poprawnym, a tym samym otrzymując wyższy wynik niż wstrzymanie się. To wyjaśnia, dlaczego nawet zaawansowane modele domyślne są pewne wytwarzanie, a nie niepewność.

Proponowane rozwiązania i kompromis między dokładnością a doświadczeniem użytkownika

Aby rozwiązać ten problem, badacze Openai proponują nowe podejście, które integruje oszacowanie zaufania zarówno z zachowaniem modelu, jak i procesu oceny. Modele zostaną przeszkoleni w celu oceny własnej pewności i byłyby oceniane za pomocą systemu punktacji, który karze nieprawidłowe odpowiedzi bardziej niż nagradza prawidłowe. Na przykład monit może poinstruować model, aby „odpowiedzieć tylko wtedy, gdy jesteś przekraczający 75 procent pewny, ponieważ błędy są ukarane 3 punkty, a poprawne odpowiedzi otrzymują 1 punkt”. Wdrożenie to znacznie zmniejszyłoby halucynacje, ale kosztuje. Artykuł szacuje, że w takim systemie modele odpowiedziełyby „nie wiem” na około 30% zapytań użytkowników. Może to być frustrujące dla użytkowników przyzwyczajonych do otrzymywania natychmiastowej odpowiedzi na wszystko, potencjalnie doprowadzając ich do mniej ostrożnych modeli konkurencji. Wysoki koszt obliczeniowy dokładnego pomiaru niepewności sprawia, że ​​takie podejście jest niepraktyczne dla usług konsumenckich o dużej objętości. Jednak artykuł zauważa, że ​​w przypadku profesjonalnych zastosowań o wysokich stawkach w dziedzinach takich jak finanse, medycyna lub projektowanie kosztów błędu jest znacznie większy niż koszt obliczeń, co czyni systemy świadomości niepewności nie tylko opłacalne. Badanie stwierdza, że ​​podstawowe zachęty w AI, które priorytetują zaangażowanie i szybkość priorytetu użytkowników, zapewnią, że halucynacje pozostaną trwałe, dopóki priorytety te nie zostaną przeniesione.


Polecane wizerunki

Tags: AiBadaniaOpenaiWyróżniony

Related Posts

Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych

Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych

3 czerwca 2026
Anthropic zaprasza 150 kolejnych organizacji do projektu Glasswing

Anthropic zaprasza 150 kolejnych organizacji do projektu Glasswing

3 czerwca 2026
Microsoft przedstawia projekt Solara, który będzie przyszłością skupiającą się na agentach

Microsoft przedstawia projekt Solara, który będzie przyszłością skupiającą się na agentach

3 czerwca 2026
Google umożliwi stronom internetowym rezygnację z wyników wyszukiwania AI

Google umożliwi stronom internetowym rezygnację z wyników wyszukiwania AI

3 czerwca 2026
OpenAI rozszerza Kodeks o wtyczki korporacyjne i nową funkcję Witryn

OpenAI rozszerza Kodeks o wtyczki korporacyjne i nową funkcję Witryn

3 czerwca 2026
Meta łata lukę AI, która umożliwiała przejmowanie kont na Instagramie

Meta łata lukę AI, która umożliwiała przejmowanie kont na Instagramie

2 czerwca 2026

Recent Posts

  • Reguły rezygnacji z wyszukiwania Google AI powodują uruchomienie przeglądarki Enviromates
  • Sony ujawnia God of War: Laufey na PS5
  • Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych
  • Microsoft przedstawia Surface RTX Spark Dev Box dla obciążeń AI
  • Według doniesień brakuje nowych chipów Intel Core Ultra

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.