Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Dlaczego rzucanie większej liczby komputerów AI w sprawie weryfikacji może być błędem

byKerem Gülen
11 kwietnia 2025
in Research
Home Research
Share on FacebookShare on Twitter

Uzyskiwanie dużych modeli językowych (LLM) do lepszego rozumowania to jedno. Doprowadzenie ich bez spalania absurdalnych ilości obliczeń to kolejne. Nowy artykuł badawczy Tu Darmstadt, UCLA, Google Deepmind i Mila zagłębia się w ten kompromis-i może po prostu zmienić sposób, w jaki programiści AI myślą o skalowaniu rozumowania w czasie testu.

Podstawowe napięcie? Niezależnie od tego, czy LLM powinny wydać swoje obliczenia generując więcej odpowiedzi (tak zwane samozwańczo lub SC), czy weryfikując kilka obiecujących odpowiedzi przy użyciu generatywnych modeli nagrody (GenRMS). Okazuje się, że wybór złego może sprawić, że model marnuje swój model do 128 razy więcej obliczeni – dla ledwie zauważalnego uderzenia wydajności.

Nowa matematyka rozumowania na skalę

LLM, takie jak GPT-4, LAMA lub QWEN, stały się szokująco dobre w rozwiązywaniu problemów z matematyką i nauką, generując wiele łańcuchów myśli (COTS) i wybierając najczęstszy wynik. Taki jest pomysł SC – Brute Force Wisdom tłumu. Ale naukowcy byli również podekscytowani GenRMS, nowszym podejściem, które pozwala LLM działać jak ich własny sędzia, weryfikując odpowiedzi poprzez dalsze rozumowanie łańcucha.

Poprzednie porównania sprawiły, że GenRM wyglądał na bardzo wydajny: dopasowanie dokładności SC do 4 x mniej roztworów. Ale ten artykuł nazywa to kadrowanie – ciężko. Dlaczego? Ponieważ nikt nie liczył prawdziwego kosztu obliczeniowego wszystkich tych etapów weryfikacji.

Oblicz budżety zmieniają wszystko

Badanie to wprowadza czyste ramy do pomiaru rzeczywistych kosztów podejść SC i GenRM w ramach ustalonego budżetu obliczeniowego. Działa tak: możesz albo wydać obliczenie generując więcej odpowiedzi (SC) lub podzielić ten budżet na kilka odpowiedzi i wiele weryfikacji (GenRM). Ich model obliczania całkowitego obliczenia wnioskowania jest odświeżająco prosty: C (S, V) = S (1 + λv), gdzie S jest liczbą roztworów, v liczba weryfikacji, a λ odzwierciedla długość weryfikacji w stosunku do roztworów.

Brutalny wynik: SC jest nadal królem (chyba że jesteś bogaty)

Eksperymenty nie miało wątpliwości. W modelach LAMA i QWEN, od 7B do 70B parametrów oraz w zadaniach matematyki i rozumowania naukowego, historia powtórzyła się: SC przewyższało GenRM przy niższych budżetach obliczeniowych. Dopiero po skalowaniu obliczeń po 8 ×, czy Genrm nadrobiło zaległości. A uzyskanie niewielkiego wzrostu wydajności o 3,8% w stosunku do SC wymagało podatkowania o 128 × więcej obliczeń.

Wynik ten utrzymywał nawet zaawansowane „modele myślenia”, takie jak QWQ-32B, oraz na twardych zestawach danych matematycznych, takich jak AIME24. SC wygrywa, gdy obliczanie jest ciasne. GenRM ma sens tylko wtedy, gdy obliczanie jest praktycznie wolne – lub gdy problemy są tak trudne, że weryfikacja dramatycznie się opłaca.


IEA Ostrzega: AI może podwoić globalne zużycie energii w centrum danych do 2030


Inteligentny sposób korzystania z GenRM (jeśli musisz)

Mimo to badanie nie odrzucają GenRM. W rzeczywistości wywodzi się Przepisy dotyczące skalowania wnioskowania W przypadku GenRM-plan do rozwiązywania problemów komputerowych. Kluczowe odkrycie? Podczas skalowania GenRM przydzień oblicz w kierunku generowania roztworów szybciej niż weryfikacje – około 1,5 do 2 razy szybciej. W liczbach ich przepisy dotyczące skalowania wykazały optymalne skale liczby rozwiązań o budżecie obliczeniowym jako S ∝ C^0,57, podczas gdy optymalne weryfikacje skala jako V ∝ C^0,39.

To badanie pozostawia praktykującym bardzo praktycznym przewodnikiem: jeśli obliczanie jest ograniczone, Trust SC i wydają je na generowanie większej liczby rozwiązań. Jeśli obliczanie jest obfite, a zwłaszcza jeśli masz do czynienia z trudniejszymi zadaniami rozumowania, użycie GenRM z odpowiednią równowagą skalowania może być tego warte – ale tylko z poważną optymalizacją.

Dla programistów sztucznej inteligencji stojących przed ograniczeniami w świecie rzeczywistych, na wynos jest prawie komicznie prosty: więcej myślenia bije bardziej weryfikujące, chyba że masz zasoby bliskie. I nawet wtedy weryfikacja musi być inteligentna, wydajna i minimalna.

Pełny papier, „Kiedy rozwiązać, kiedy zweryfikować: Oblicz optymalne rozwiązywanie problemów i weryfikacja generatywna dla rozumowania LLM”Jest dostępny na arxiv. Ich baza kodu jest otwarta Github.


Polecane wizerunki

Tags: AiLLMS

Related Posts

OpenAI GPT 5.2 rozwiązuje problem matematyczny Erdő w 15 minut

OpenAI GPT 5.2 rozwiązuje problem matematyczny Erdő w 15 minut

19 stycznia 2026
Appfigures: wydatki na aplikacje mobilne osiągnęły rekordową kwotę 155,8 miliarda dolarów

Appfigures: wydatki na aplikacje mobilne osiągnęły rekordową kwotę 155,8 miliarda dolarów

15 stycznia 2026
Globalny niedobór układów pamięci powoduje gwałtowny wzrost cen komputerów PC

Globalny niedobór układów pamięci powoduje gwałtowny wzrost cen komputerów PC

14 stycznia 2026
Inżynierowie budują roboty inspirowane konikami polnymi, aby rozwiązać problem zużycia baterii

Inżynierowie budują roboty inspirowane konikami polnymi, aby rozwiązać problem zużycia baterii

14 stycznia 2026
Badanie natury przewiduje, że do 2050 r. powstanie 2B urządzeń zdrowotnych do noszenia

Badanie natury przewiduje, że do 2050 r. powstanie 2B urządzeń zdrowotnych do noszenia

7 stycznia 2026
Imperial College London rozwija sztuczną inteligencję, aby przyspieszyć odkrywanie leków nasercowych

Imperial College London rozwija sztuczną inteligencję, aby przyspieszyć odkrywanie leków nasercowych

6 stycznia 2026

Recent Posts

  • Firma Microsoft udostępnia awaryjną aktualizację OOB, aby naprawić pętlę ponownego uruchamiania systemu Windows 11
  • Musk żąda 134 miliardów dolarów od OpenAI i Microsoftu
  • Threads dociera do 141 milionów użytkowników dziennie, aby zdobyć mobilny tron ​​​​od X
  • Integracja Portfela Google i Zadań ujawnia się w nowym wycieku dotyczącym Pixela 10
  • iOS 27: Wszystko, co wiemy do tej pory

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.