Nowe ramy testów stresowych ujawnia wady w zaawansowanym rozumowaniu AI

Podczas gdy zaawansowane systemy AI znane jako Duże modele rozumowania (LRMS) Wykazali imponującą wydajność w złożonych testach testowych rozwiązywania problemów, ich prawdziwe możliwości rozumowania mogą zostać przecenione za pomocą obecnych metod oceny. Według ostatniego artykułu Sajjada Ansari, nowatorskie ramy testowania stresu wielokrotnego wywołujące ujawniają, że nawet najnowocześniejsze modele walczą w bardziej realistycznych warunkach.

Ramy, szczegółowe w artykule REST: Ramy testowania stresu do oceny rozumowania wieloprobnawego w dużych modelach rozumowaniazostał opracowany przez naukowców z Tsinghua University, Opendatalab, Shanghai AI Laboratory i Renmin University, aby zająć się krytycznymi lukami w zakresie testowania tych zaawansowanych modeli.

Dlaczego testy pojedynczych pytań stają się przestarzałe

Większość obecnych testów porównawczych stosowanych do oceny LRM, takich jak GSM8K i Math, ocenia modele, zadając jedno pytanie na raz. Takie podejście ma dwie znaczące wady, które ograniczają jego skuteczność w pomiarze prawdziwej zdolności rozumowania. Po pierwsze, dyskryminacyjna moc tych testów porównawczych maleje, ponieważ najlepsze modele osiągają prawie idealne wyniki, co utrudnia rozróżnienie znaczącej poprawy między nimi. Na przykład niektóre modele docierają teraz 97% Dokładność testów porównawczych, takich jak Math500, poziom nasycenia, który wymusza drogie tworzenie coraz większych zestawów danych.

Po drugie, testowanie pojedynczych pytań nie odzwierciedlają rzeczywistych scenariuszy, w których systemy AI muszą rozumować w wielu, potencjalnie zakłócających problemach jednocześnie. Zastosowania takie jak wsparcie techniczne, korepetycje edukacyjne lub wielozadaniowe asystenci AI wymagają dynamicznego zarządzania obciążeniem poznawczym, umiejętności, których izolowane testy nie mogą zmierzyć. Aby to rozwiązać, badacze opracowali REST (ocena rozumowania poprzez jednoczesne testy), metodę, która łączy wiele pytań z istniejących testów porównawczych w jedną monit o lepszą symulację wymagań w świecie rzeczywistym.

Wielki paradoks AI Trust spada, gdy jego wartość rośnie

Kluczowe ustalenia z testowania stresu z wieloma problemami

Stosując ramy odpoczynku do 34 Zaawansowane LRM, naukowcy odkryli kilka przełomowych spostrzeżeń w swoich prawdziwych możliwościach. Ocena przeprowadzona na 7 Różnorodne testy porównawcze ujawniło, że wydajność znacznie się degraduje, gdy modele są zmuszone do obsługi wielu problemów jednocześnie.

Znaczna degradacja wydajności: Nawet modele najwyższej jakości, takie jak DeepSeek-R1, wykazywały znaczący spadek dokładności podczas testowania z odpoczynkiem. W sprawie trudnych odniesień, takich jak Aime24, dokładność modelu spadła o prawie 30% w porównaniu z jego wydajnością w izolowanych testach pytań.
Ulepszona moc dyskryminacyjna: Rest dramatycznie wzmacniał różnice wydajności między modelami, które wydawały się podobne w testach jednoosobowych. W odniesieniu Math500 dwa modele z bliskimi początkowymi wynikami 93% I 94,6% pokazał masywny 22% luka w wydajności w spoczynku, a ich dokładności spadają 66,75% I 88,97%odpowiednio.
Wgląd metody szkoleniowej: Badanie wykazało, że modele dopracowane dzięki wspólnym metodom, takim jak uczenie się wzmocnienia w zadaniach z pojedynczym problemem, często nie zachowują swojej przewagi w warunkach wielopoziomowych. Jednak modele przeszkolone w technikach „Long2 Short”, które zachęcają do bardziej zwięzłego i skutecznego rozumowania, utrzymywały wyższą dokładność pod wpływem stresu, sugerując obiecujący kierunek przyszłego rozwoju.

Reszta framework symuluje wysoki Obciążenie poznawczeWymuszanie modeli do dynamicznego alokacji zasobów, odporności na zakłócenia z równoczesnych zadań i unikanie przemyślenia jednego problemu. Ta metoda pozwala również na bardziej dopracowaną analizę błędów, które są niewidoczne w testach jednoosobowych, takich jak pominięcie pytań, w których model ignoruje późniejsze pytania w wierszu i błędach podsumowujących, w których niepoprawnie syntetyzuje odpowiedzi z wielu problemów. Poprzez rewitalizowanie istniejących zestawów danych i odzwierciedlenie rzeczywistych wymagań, ramy zapewnia bardziej niezawodny i przyszły paradygmat oceny systemów AI rozumowania nowej generacji.

Tags: LLM LRM

Nowe ramy testów stresowych ujawnia wady w zaawansowanym rozumowaniu AI

Related Posts

Startup przedstawia model sztucznej inteligencji zbudowany na oscylatorach, który może zmniejszyć zużycie energii 1000 razy

Cyfrowa transformacja procesów zakupowych: Budowa systemu zakupów korporacyjnych na przykładzie projektu międzynarodowego holdingu przemysłowego

Nowa teoria ciemnej materii proponuje dwa typy cząstek

Naukowcy z Penn State zbudowali bezbateryjny, słoneczny układ obliczeniowy

Luka w Google Dialogflow CX umożliwiła badaczom tworzenie nieuczciwych agentów

Badania antropiczne wprowadzają GRAM do izolowania niebezpiecznej wiedzy o sztucznej inteligencji

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Nowe ramy testów stresowych ujawnia wady w zaawansowanym rozumowaniu AI

Dlaczego testy pojedynczych pytań stają się przestarzałe

Kluczowe ustalenia z testowania stresu z wieloma problemami

Related Posts

Startup przedstawia model sztucznej inteligencji zbudowany na oscylatorach, który może zmniejszyć zużycie energii 1000 razy

Cyfrowa transformacja procesów zakupowych: Budowa systemu zakupów korporacyjnych na przykładzie projektu międzynarodowego holdingu przemysłowego

Nowa teoria ciemnej materii proponuje dwa typy cząstek

Naukowcy z Penn State zbudowali bezbateryjny, słoneczny układ obliczeniowy

Luka w Google Dialogflow CX umożliwiła badaczom tworzenie nieuczciwych agentów

Badania antropiczne wprowadzają GRAM do izolowania niebezpiecznej wiedzy o sztucznej inteligencji

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us