Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Dlaczego małe modele AI nie mogą nadążyć za dużymi

byKerem Gülen
18 lutego 2025
in Research
Home Research

Wzrost dużych modeli językowych (LLM) był niczym transformacyjnym. Te systemy AI wyróżniają się złożonym rozumowaniem, rozkładając problemy na strukturalne, logiczne kroki znane jako Rozumowanie łańcucha (COT). Jednak, gdy badania AI dąży do wydajności, pojawia się kluczowe pytanie: Czy mniejsze modele mogą odziedziczyć te zaawansowane możliwości rozumowania poprzez destylację z większych modeli?

Nowy badanie Autor: Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian i Radha Poovendran z University of Washington, Carnegie Mellon University, i Western Washington University sugerują, że odpowiedź jest bardziej komplikowana niż wcześniej. W badaniu zatytułowanym „Małe modele starają się uczyć od silnych rozumerów”Badacze zidentyfikowali, jak nazywają Mała luka uczenia się modelu– Zjawisko, w którym małe modele (parametry ≤3b) mają trudności z skorzystaniem z skomplikowanego rozumowania ich większych odpowiedników. Zamiast tego modele te działają lepiej po szkoleniu Krótsze, prostsze kroki rozumowania lub destylowany z innych małe modele.

To odkrycie kwestionuje konwencjonalne przekonanie, że Większy jest zawsze lepszy Jeśli chodzi o transfer wiedzy AI. Badanie proponuje również Nowe podejście do destylacji AI– Jeden z złożoności rozumowania, aby pomóc mniejszym modelom uczyć się bardziej efektywnie.

Dlaczego małe modele AI walczą ze złożonym rozumowaniem

LLM jak GPT-4O, Claude 3 Opus i Gemini są szkolone w masowych zestawach danych i zoptymalizowani do przetwarzania skomplikowanych łańcuchów rozumowania. Ich wyjaśnienia krok po kroku zwiększają dokładność rozwiązywania problemów w takich dziedzinach matematyka, logiczne wnioskowanie i ustrukturyzowane podejmowanie decyzji.

Oczywiście badacze AI próbowali „kurczyć się” Ta inteligencja w mniejsze modele-dostrajając je przy użyciu wyjść z większych modeli. Pomysł jest prosty: trenuj mniejszy model długie, szczegółowe ślady rozumowania generowane przez większą sztuczną inteligencję, mając nadzieję, że pochłonie tę samą logikę strukturalną.

Ale badanie stwierdza, że ​​takie podejście Często zasypią.

  • Małe modele nie internalizują długich kroków rozumowania: Podczas przeszkolenia Długie i misterne wyjaśnieniaMniejsze modele starają się uogólniać, co prowadzi do spadków wydajności.
  • Uczą się lepiej z prostszych łańcuchów rozumowania: Szkolenie małych modeli na krótsze, bardziej zwięzłe sekwencje rozumowania Poprawia ich zdolność do przetwarzania logicznych kroków.
  • Większy nie zawsze jest lepszy do nauczania sztucznej inteligencji: Duże łańcuchy rozumowania generowane przez modele nie zawsze poprawiają rozumowanie mniejszych modeli-czasami go utrudniają.

Ten efekt jest szczególnie widoczny w zadania związane z matematykągdzie ustrukturyzowane rozwiązywanie problemów odgrywa kluczową rolę. Zespół badawczy ocenił małe modele w różnych testach porównawczych, w tym Math, GSM8K, Aime, AMC i Olympiadbenchznalezienie złożonej destylacji rozumowania często prowadziło do zmniejszonej wydajności.

FIX: Mieszaj destylacja

Aby to rozwiązać Uczenie się wąskiego gardłanaukowcy proponują Mieszaj destylację zbliżać się. Zamiast wyłącznie trenować małe modele na długich sekwencjach łóżeczka lub destylujące z dużych modeli, ta metoda równoważy złożoność rozumowania Łącząc wiele stylów rozumowania.

Ich strategia składa się z dwóch konfiguracji:

  1. Mieszać długie: Kombinacja Krótkie i długie łańcuchy rozumowaniazapewnienie, że małe modele są narażone zarówno na szczegółową, jak i uproszczoną logikę.
  2. Mieszać duże: Mieszanka rozumowania kroków od duże i małe modeleOptymalizacja transferu wiedzy bez przytłaczania mniejszych modeli.

Eksperymenty to pokazują Mieszanie destylacja znacznie poprawia małe rozumowanie modelu w porównaniu ze szkoleniem danych jednokierunkowych.

Na przykład:

  • QWEN2.5-3b-instruct ulepszone przez Ponad 8 punktów w zakresie testów porównawczych matematycznych i AMC za pomocą Mieszać długiew porównaniu z szkoleniem tylko na długich danych COT.
  • Ten sam model zyskał Ponad 7 punktów używając Mieszać dużew porównaniu do bezpośredniej destylacji z dużego modelu nauczyciela.

Wynos? Małe modele nie muszą naśladować dużych modeli dosłownie – potrzebują starannie wyselekcjonowanej mieszanki złożoności rozumowania.


Wyróżniony obraz obrazu: Kerem Gülen/Midjourney

Tags: Ai

Related Posts

Narzędzia badawcze AI mogą powodować więcej problemów niż rozwiązują

Narzędzia badawcze AI mogą powodować więcej problemów niż rozwiązują

14 maja 2025
Czy twój bardzo pomocny partner generatywny AI potajemnie sprawia, że ​​twoja praca jest nudna?

Czy twój bardzo pomocny partner generatywny AI potajemnie sprawia, że ​​twoja praca jest nudna?

14 maja 2025
Adele Microsoft chce nadać twojej sztucznej inteligencji profilu poznawczego

Adele Microsoft chce nadać twojej sztucznej inteligencji profilu poznawczego

14 maja 2025
Apple Research Paper zaprezentuje Matrix3D do generowania treści 3D

Apple Research Paper zaprezentuje Matrix3D do generowania treści 3D

14 maja 2025
Badania: Złoty standard oceny Genai

Badania: Złoty standard oceny Genai

12 maja 2025
AI w końcu rozwiązuje najtrudniejszą zagadkę biologii

AI w końcu rozwiązuje najtrudniejszą zagadkę biologii

6 maja 2025

Recent Posts

  • Wpływ inteligentnych tkanin na taktyczną wydajność odzieży
  • Databricks obstawia duże na serwerze Postgres z przejęciem neonów w wysokości 1 miliarda dolarów
  • Alphaevolve: Jak nowa sztuczna inteligencja Google dąży do prawdy z samokonmitowaniem
  • Tiktok wdraża teksty AlT generowane przez AI, aby uzyskać lepszą dostępność
  • Trump zmusza Apple do przemyślenia swojej strategii iPhone’a w Indiach

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.