Wzrost dużych modeli językowych (LLM) był niczym transformacyjnym. Te systemy AI wyróżniają się złożonym rozumowaniem, rozkładając problemy na strukturalne, logiczne kroki znane jako Rozumowanie łańcucha (COT). Jednak, gdy badania AI dąży do wydajności, pojawia się kluczowe pytanie: Czy mniejsze modele mogą odziedziczyć te zaawansowane możliwości rozumowania poprzez destylację z większych modeli?
Nowy badanie Autor: Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian i Radha Poovendran z University of Washington, Carnegie Mellon University, i Western Washington University sugerują, że odpowiedź jest bardziej komplikowana niż wcześniej. W badaniu zatytułowanym „Małe modele starają się uczyć od silnych rozumerów”Badacze zidentyfikowali, jak nazywają Mała luka uczenia się modelu– Zjawisko, w którym małe modele (parametry ≤3b) mają trudności z skorzystaniem z skomplikowanego rozumowania ich większych odpowiedników. Zamiast tego modele te działają lepiej po szkoleniu Krótsze, prostsze kroki rozumowania lub destylowany z innych małe modele.
To odkrycie kwestionuje konwencjonalne przekonanie, że Większy jest zawsze lepszy Jeśli chodzi o transfer wiedzy AI. Badanie proponuje również Nowe podejście do destylacji AI– Jeden z złożoności rozumowania, aby pomóc mniejszym modelom uczyć się bardziej efektywnie.
Dlaczego małe modele AI walczą ze złożonym rozumowaniem
LLM jak GPT-4O, Claude 3 Opus i Gemini są szkolone w masowych zestawach danych i zoptymalizowani do przetwarzania skomplikowanych łańcuchów rozumowania. Ich wyjaśnienia krok po kroku zwiększają dokładność rozwiązywania problemów w takich dziedzinach matematyka, logiczne wnioskowanie i ustrukturyzowane podejmowanie decyzji.
Oczywiście badacze AI próbowali „kurczyć się” Ta inteligencja w mniejsze modele-dostrajając je przy użyciu wyjść z większych modeli. Pomysł jest prosty: trenuj mniejszy model długie, szczegółowe ślady rozumowania generowane przez większą sztuczną inteligencję, mając nadzieję, że pochłonie tę samą logikę strukturalną.
Ale badanie stwierdza, że takie podejście Często zasypią.
- Małe modele nie internalizują długich kroków rozumowania: Podczas przeszkolenia Długie i misterne wyjaśnieniaMniejsze modele starają się uogólniać, co prowadzi do spadków wydajności.
- Uczą się lepiej z prostszych łańcuchów rozumowania: Szkolenie małych modeli na krótsze, bardziej zwięzłe sekwencje rozumowania Poprawia ich zdolność do przetwarzania logicznych kroków.
- Większy nie zawsze jest lepszy do nauczania sztucznej inteligencji: Duże łańcuchy rozumowania generowane przez modele nie zawsze poprawiają rozumowanie mniejszych modeli-czasami go utrudniają.
Ten efekt jest szczególnie widoczny w zadania związane z matematykągdzie ustrukturyzowane rozwiązywanie problemów odgrywa kluczową rolę. Zespół badawczy ocenił małe modele w różnych testach porównawczych, w tym Math, GSM8K, Aime, AMC i Olympiadbenchznalezienie złożonej destylacji rozumowania często prowadziło do zmniejszonej wydajności.
FIX: Mieszaj destylacja
Aby to rozwiązać Uczenie się wąskiego gardłanaukowcy proponują Mieszaj destylację zbliżać się. Zamiast wyłącznie trenować małe modele na długich sekwencjach łóżeczka lub destylujące z dużych modeli, ta metoda równoważy złożoność rozumowania Łącząc wiele stylów rozumowania.
Ich strategia składa się z dwóch konfiguracji:
- Mieszać długie: Kombinacja Krótkie i długie łańcuchy rozumowaniazapewnienie, że małe modele są narażone zarówno na szczegółową, jak i uproszczoną logikę.
- Mieszać duże: Mieszanka rozumowania kroków od duże i małe modeleOptymalizacja transferu wiedzy bez przytłaczania mniejszych modeli.
Eksperymenty to pokazują Mieszanie destylacja znacznie poprawia małe rozumowanie modelu w porównaniu ze szkoleniem danych jednokierunkowych.
Na przykład:
- QWEN2.5-3b-instruct ulepszone przez Ponad 8 punktów w zakresie testów porównawczych matematycznych i AMC za pomocą Mieszać długiew porównaniu z szkoleniem tylko na długich danych COT.
- Ten sam model zyskał Ponad 7 punktów używając Mieszać dużew porównaniu do bezpośredniej destylacji z dużego modelu nauczyciela.
Wynos? Małe modele nie muszą naśladować dużych modeli dosłownie – potrzebują starannie wyselekcjonowanej mieszanki złożoności rozumowania.
Wyróżniony obraz obrazu: Kerem Gülen/Midjourney