Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Bytedance Vapo: Ulepszenie AI, o których wkrótce usłyszysz

byKerem Gülen
11 kwietnia 2025
in Research
Home Research

Badacze nasion Bytetedance wdrożyli wartość rozszerzoną bliższą optymalizacją polityki (VAPO), ramy szkolenia uczenia się wzmocnienia zaprojektowane w celu wyostrzenia rozumowania dużych modeli języków na złożonych, długich zadań, osiągając nowe najnowocześniejsze wyniki w odniesieniu AIME24.

Szkolenie LLM dla skomplikowanego rozumowania przy użyciu uczenia się wzmocnienia opartego na wartości, które wcześniej miały do ​​czynienia z znaczącymi przeszkodami. Metody zmagały się z odchyleniem modelu wartości, skutecznie dostosowując się do sekwencji odpowiedzi o bardzo różnej długości i zarządzanie rzadkimi sygnałami nagrody, szczególnie w zadaniach opartych na weryfikatorach, zapewniając tylko binarne informacje zwrotne.

VAPO zajmuje się tymi wyzwaniami poprzez trzy podstawowe innowacje: szczegółowe ramy szkoleń oparte na wartości, dostosowujące się do ogólnej wartości szacunkowej (GAE) dostosowujące parametry oparte na długości odpowiedzi oraz systematyczną integrację technik z wcześniejszych badań.

Ta kombinacja tworzy system, w którym ulepszenia działają synergistycznie. Korzystając z modelu QWEN2.5-32B bez określonych danych SFT, VAPO poprawił wyniki porównawcze od 5 do 60, przewyższając poprzednie najnowocześniejsze metody o 10 punktów.

VAPO opiera się na algorytmie bliższej optymalizacji polityki (PPO), ale zawiera kluczowe modyfikacje w celu zwiększenia rozumowania matematycznego. Analiza treningowa ujawniła, że ​​VAPO wykazuje gładsze krzywe treningowe w porównaniu z metodą DAPO bez wartości, co wskazuje na bardziej stabilną optymalizację.

VAPO wykazało również lepszą skalowanie długości w celu poprawy uogólnienia, szybszego wzrostu wyniku przypisywania ziarnistości sygnałów z modelu wartości i niższej entropii na późniejszych etapach treningu. Podczas gdy zmniejszona entropia może potencjalnie ograniczyć eksplorację, metoda skutecznie to równoważy, poprawiając odtwarzalność i stabilność przy minimalnym wpływie wydajności.

Bytedance-vapo-the-ai-upgrade-youll-hear-about-aon
Zdjęcie: nasiona Bytedance

W odniesieniu AIME24 Deepseek R1 przy użyciu GRPO osiągnął 47 punktów, a Dapo osiągnął 50 punktów. VAPO, korzystając z modelu QWEN-32B, dopasowało wydajność DAPO z zaledwie 60% kroków aktualizacji i ustalił nowy najnowocześniejszy wynik 60,4 w 5 000 kroków. Natomiast waniliowy PPO uzyskał zaledwie 5 punktów z powodu załamania uczenia się modelu wartości.


Ten punkt odniesienia pyta, czy sztuczna inteligencja może myśleć jak inżynier


Badania ablacyjne potwierdziły skuteczność siedmiu różnych modyfikacji w VAPO. Preferowanie wartości zapobiega załamaniu modelu; Oddzielony GAE umożliwia pełną optymalizację długich odpowiedzi; Adaptacyjny GAE równoważy krótką i długą optymalizację reakcji; Clip-Higher zachęca do dokładnej eksploracji; Utrata poziomu tokena zwiększa ważenie dla długich odpowiedzi; Uwzględnianie pozytywnej utraty LM dodało 6 punktów; a próbkowanie grupy przyczyniło się do 5 punktów do końcowego wyniku.

Badacze atrakcja To VAPO, wykorzystując model QWEN2.5-32B, pokazuje, że to podejście oparte na wartości może zdecydowanie przewyższyć metody wolne od wartości, takie jak GRPO i DAPO, ustanawiając nowy poziom wydajności dla złożonych zadań rozumowania i rozwiązywanie podstawowych wyzwań w modelach wartości szkoleniowej dla długich scenariuszy łańcucha.


Polecane wizerunki

Tags: BytedanceVapo

Related Posts

Narzędzia badawcze AI mogą powodować więcej problemów niż rozwiązują

Narzędzia badawcze AI mogą powodować więcej problemów niż rozwiązują

14 maja 2025
Czy twój bardzo pomocny partner generatywny AI potajemnie sprawia, że ​​twoja praca jest nudna?

Czy twój bardzo pomocny partner generatywny AI potajemnie sprawia, że ​​twoja praca jest nudna?

14 maja 2025
Adele Microsoft chce nadać twojej sztucznej inteligencji profilu poznawczego

Adele Microsoft chce nadać twojej sztucznej inteligencji profilu poznawczego

14 maja 2025
Apple Research Paper zaprezentuje Matrix3D do generowania treści 3D

Apple Research Paper zaprezentuje Matrix3D do generowania treści 3D

14 maja 2025
Badania: Złoty standard oceny Genai

Badania: Złoty standard oceny Genai

12 maja 2025
AI w końcu rozwiązuje najtrudniejszą zagadkę biologii

AI w końcu rozwiązuje najtrudniejszą zagadkę biologii

6 maja 2025

Recent Posts

  • Wpływ inteligentnych tkanin na taktyczną wydajność odzieży
  • Databricks obstawia duże na serwerze Postgres z przejęciem neonów w wysokości 1 miliarda dolarów
  • Alphaevolve: Jak nowa sztuczna inteligencja Google dąży do prawdy z samokonmitowaniem
  • Tiktok wdraża teksty AlT generowane przez AI, aby uzyskać lepszą dostępność
  • Trump zmusza Apple do przemyślenia swojej strategii iPhone’a w Indiach

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.