Bytedance Vapo: Ulepszenie AI, o których wkrótce usłyszysz

Badacze nasion Bytetedance wdrożyli wartość rozszerzoną bliższą optymalizacją polityki (VAPO), ramy szkolenia uczenia się wzmocnienia zaprojektowane w celu wyostrzenia rozumowania dużych modeli języków na złożonych, długich zadań, osiągając nowe najnowocześniejsze wyniki w odniesieniu AIME24.

Szkolenie LLM dla skomplikowanego rozumowania przy użyciu uczenia się wzmocnienia opartego na wartości, które wcześniej miały do czynienia z znaczącymi przeszkodami. Metody zmagały się z odchyleniem modelu wartości, skutecznie dostosowując się do sekwencji odpowiedzi o bardzo różnej długości i zarządzanie rzadkimi sygnałami nagrody, szczególnie w zadaniach opartych na weryfikatorach, zapewniając tylko binarne informacje zwrotne.

VAPO zajmuje się tymi wyzwaniami poprzez trzy podstawowe innowacje: szczegółowe ramy szkoleń oparte na wartości, dostosowujące się do ogólnej wartości szacunkowej (GAE) dostosowujące parametry oparte na długości odpowiedzi oraz systematyczną integrację technik z wcześniejszych badań.

Ta kombinacja tworzy system, w którym ulepszenia działają synergistycznie. Korzystając z modelu QWEN2.5-32B bez określonych danych SFT, VAPO poprawił wyniki porównawcze od 5 do 60, przewyższając poprzednie najnowocześniejsze metody o 10 punktów.

VAPO opiera się na algorytmie bliższej optymalizacji polityki (PPO), ale zawiera kluczowe modyfikacje w celu zwiększenia rozumowania matematycznego. Analiza treningowa ujawniła, że VAPO wykazuje gładsze krzywe treningowe w porównaniu z metodą DAPO bez wartości, co wskazuje na bardziej stabilną optymalizację.

VAPO wykazało również lepszą skalowanie długości w celu poprawy uogólnienia, szybszego wzrostu wyniku przypisywania ziarnistości sygnałów z modelu wartości i niższej entropii na późniejszych etapach treningu. Podczas gdy zmniejszona entropia może potencjalnie ograniczyć eksplorację, metoda skutecznie to równoważy, poprawiając odtwarzalność i stabilność przy minimalnym wpływie wydajności.

Bytedance-vapo-the-ai-upgrade-youll-hear-about-aon — Zdjęcie: nasiona Bytedance

W odniesieniu AIME24 Deepseek R1 przy użyciu GRPO osiągnął 47 punktów, a Dapo osiągnął 50 punktów. VAPO, korzystając z modelu QWEN-32B, dopasowało wydajność DAPO z zaledwie 60% kroków aktualizacji i ustalił nowy najnowocześniejszy wynik 60,4 w 5 000 kroków. Natomiast waniliowy PPO uzyskał zaledwie 5 punktów z powodu załamania uczenia się modelu wartości.

Ten punkt odniesienia pyta, czy sztuczna inteligencja może myśleć jak inżynier

Badania ablacyjne potwierdziły skuteczność siedmiu różnych modyfikacji w VAPO. Preferowanie wartości zapobiega załamaniu modelu; Oddzielony GAE umożliwia pełną optymalizację długich odpowiedzi; Adaptacyjny GAE równoważy krótką i długą optymalizację reakcji; Clip-Higher zachęca do dokładnej eksploracji; Utrata poziomu tokena zwiększa ważenie dla długich odpowiedzi; Uwzględnianie pozytywnej utraty LM dodało 6 punktów; a próbkowanie grupy przyczyniło się do 5 punktów do końcowego wyniku.

Badacze atrakcja To VAPO, wykorzystując model QWEN2.5-32B, pokazuje, że to podejście oparte na wartości może zdecydowanie przewyższyć metody wolne od wartości, takie jak GRPO i DAPO, ustanawiając nowy poziom wydajności dla złożonych zadań rozumowania i rozwiązywanie podstawowych wyzwań w modelach wartości szkoleniowej dla długich scenariuszy łańcucha.

Polecane wizerunki