Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Nowe ramy testów stresowych ujawnia wady w zaawansowanym rozumowaniu AI

byKerem Gülen
29 lipca 2025
in Badania
Home Badania
Share on FacebookShare on Twitter
Google Preferred Source

Podczas gdy zaawansowane systemy AI znane jako Duże modele rozumowania (LRMS) Wykazali imponującą wydajność w złożonych testach testowych rozwiązywania problemów, ich prawdziwe możliwości rozumowania mogą zostać przecenione za pomocą obecnych metod oceny. Według ostatniego artykułu Sajjada Ansari, nowatorskie ramy testowania stresu wielokrotnego wywołujące ujawniają, że nawet najnowocześniejsze modele walczą w bardziej realistycznych warunkach.

Ramy, szczegółowe w artykule REST: Ramy testowania stresu do oceny rozumowania wieloprobnawego w dużych modelach rozumowaniazostał opracowany przez naukowców z Tsinghua University, Opendatalab, Shanghai AI Laboratory i Renmin University, aby zająć się krytycznymi lukami w zakresie testowania tych zaawansowanych modeli.

Dlaczego testy pojedynczych pytań stają się przestarzałe

Większość obecnych testów porównawczych stosowanych do oceny LRM, takich jak GSM8K i Math, ocenia modele, zadając jedno pytanie na raz. Takie podejście ma dwie znaczące wady, które ograniczają jego skuteczność w pomiarze prawdziwej zdolności rozumowania. Po pierwsze, dyskryminacyjna moc tych testów porównawczych maleje, ponieważ najlepsze modele osiągają prawie idealne wyniki, co utrudnia rozróżnienie znaczącej poprawy między nimi. Na przykład niektóre modele docierają teraz 97% Dokładność testów porównawczych, takich jak Math500, poziom nasycenia, który wymusza drogie tworzenie coraz większych zestawów danych.

Po drugie, testowanie pojedynczych pytań nie odzwierciedlają rzeczywistych scenariuszy, w których systemy AI muszą rozumować w wielu, potencjalnie zakłócających problemach jednocześnie. Zastosowania takie jak wsparcie techniczne, korepetycje edukacyjne lub wielozadaniowe asystenci AI wymagają dynamicznego zarządzania obciążeniem poznawczym, umiejętności, których izolowane testy nie mogą zmierzyć. Aby to rozwiązać, badacze opracowali REST (ocena rozumowania poprzez jednoczesne testy), metodę, która łączy wiele pytań z istniejących testów porównawczych w jedną monit o lepszą symulację wymagań w świecie rzeczywistym.


Wielki paradoks AI Trust spada, gdy jego wartość rośnie


Kluczowe ustalenia z testowania stresu z wieloma problemami

Stosując ramy odpoczynku do 34 Zaawansowane LRM, naukowcy odkryli kilka przełomowych spostrzeżeń w swoich prawdziwych możliwościach. Ocena przeprowadzona na 7 Różnorodne testy porównawcze ujawniło, że wydajność znacznie się degraduje, gdy modele są zmuszone do obsługi wielu problemów jednocześnie.

  • Znaczna degradacja wydajności: Nawet modele najwyższej jakości, takie jak DeepSeek-R1, wykazywały znaczący spadek dokładności podczas testowania z odpoczynkiem. W sprawie trudnych odniesień, takich jak Aime24, dokładność modelu spadła o prawie 30% w porównaniu z jego wydajnością w izolowanych testach pytań.
  • Ulepszona moc dyskryminacyjna: Rest dramatycznie wzmacniał różnice wydajności między modelami, które wydawały się podobne w testach jednoosobowych. W odniesieniu Math500 dwa modele z bliskimi początkowymi wynikami 93% I 94,6% pokazał masywny 22% luka w wydajności w spoczynku, a ich dokładności spadają 66,75% I 88,97%odpowiednio.
  • Wgląd metody szkoleniowej: Badanie wykazało, że modele dopracowane dzięki wspólnym metodom, takim jak uczenie się wzmocnienia w zadaniach z pojedynczym problemem, często nie zachowują swojej przewagi w warunkach wielopoziomowych. Jednak modele przeszkolone w technikach „Long2 Short”, które zachęcają do bardziej zwięzłego i skutecznego rozumowania, utrzymywały wyższą dokładność pod wpływem stresu, sugerując obiecujący kierunek przyszłego rozwoju.

Reszta framework symuluje wysoki Obciążenie poznawczeWymuszanie modeli do dynamicznego alokacji zasobów, odporności na zakłócenia z równoczesnych zadań i unikanie przemyślenia jednego problemu. Ta metoda pozwala również na bardziej dopracowaną analizę błędów, które są niewidoczne w testach jednoosobowych, takich jak pominięcie pytań, w których model ignoruje późniejsze pytania w wierszu i błędach podsumowujących, w których niepoprawnie syntetyzuje odpowiedzi z wielu problemów. Poprzez rewitalizowanie istniejących zestawów danych i odzwierciedlenie rzeczywistych wymagań, ramy zapewnia bardziej niezawodny i przyszły paradygmat oceny systemów AI rozumowania nowej generacji.

Tags: LLMLRM

Related Posts

Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych

Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych

3 czerwca 2026
Sondaż pokazuje, że 71% Amerykanów uważa, że ​​sztuczna inteligencja rozwija się zbyt szybko

Sondaż pokazuje, że 71% Amerykanów uważa, że ​​sztuczna inteligencja rozwija się zbyt szybko

20 maja 2026
NordVPN stwierdza, że ​​skradzione brytyjskie karty płatnicze kosztują w ciemnej sieci 12 dolarów

NordVPN stwierdza, że ​​skradzione brytyjskie karty płatnicze kosztują w ciemnej sieci 12 dolarów

20 maja 2026
Centra danych i kryptowaluty mogą podnieść koszty energii o 57% do 2030 r

Centra danych i kryptowaluty mogą podnieść koszty energii o 57% do 2030 r

20 maja 2026
Badania wykazały, że umiejętności związane ze sztuczną inteligencją są obecnie niezbędne przy awansach zawodowych i podwyżkach

Badania wykazały, że umiejętności związane ze sztuczną inteligencją są obecnie niezbędne przy awansach zawodowych i podwyżkach

20 maja 2026
Nowa konstrukcja chipa magnetycznego może przewyższyć dzisiejsze akceleratory AI

Nowa konstrukcja chipa magnetycznego może przewyższyć dzisiejsze akceleratory AI

19 maja 2026

Recent Posts

  • Reguły rezygnacji z wyszukiwania Google AI powodują uruchomienie przeglądarki Enviromates
  • Sony ujawnia God of War: Laufey na PS5
  • Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych
  • Microsoft przedstawia Surface RTX Spark Dev Box dla obciążeń AI
  • Według doniesień brakuje nowych chipów Intel Core Ultra

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.