Duże modele językowe, takie jak ChatGPT, mają podstawowy problem: są statyczne. Są szkoleni na górze danych, a następnie zamrażani w czasie, niczym podręcznik wydrukowany w 2023 r., który nie wie nic o roku 2024. Teraz badacze z Nieprawdopodobne laboratorium sztucznej inteligencji MIT Posiadać open source nowe ramy, które mogłyby to zmienić. Ich artykuł, zaprezentowany niedawno Konferencja NeurIPS 2025przedstawia system o nazwie Samodostosowujące się modele językowe (SEAL). Podstawowa idea jest prosta, ale implikacje są ogromne: sztuczna inteligencja uczy się uczyć się. Zamiast po prostu biernie przechowywać informacje, SEAL umożliwia modelowi generowanie własnych, wysokiej jakości danych szkoleniowych, a następnie wykorzystywanie tych danych do ciągłej aktualizacji własnych wag. Ma to znaczenie, ponieważ jest to pierwszy prawdziwy krok od statycznych, „wiedzących wszystko” botów w kierunku modeli sztucznej inteligencji, które z czasem mogą ewoluować, dostosowywać się i uwzględniać nowe informacje.
Dlaczego modele AI są złymi uczniami
W tej chwili, jeśli chcesz, aby LLM nauczył się nowego faktu, masz dwie złe opcje. Możesz „umieścić” informację w oknie kontekstowym (podpowiedź), ale zapomni o tym w momencie, gdy rozmowa zostanie zresetowana. Możesz też przeprowadzić masowe i kosztowne przekwalifikowanie, co przypomina przedrukowanie całej encyklopedii tylko po to, aby dodać nowy wpis. Żadna z tych metod nie jest prawdziwą nauką. Zespół MIT, w skład którego wchodzili Adam Zweiger, Jyothish Pari i Pulkit Agrawal, przyjrzał się, jak ludzie się uczą. Kiedy uczeń przygotowuje się do egzaminu, nie tylko ponownie czyta podręcznik 50 razy. Dobry uczeń przepisuje informacji, tworząc fiszki, podsumowując rozdziały i tworząc własne notatki. Proces przekształcania i przyswajania informacji cementuje je w mózgu. SEAL został zaprojektowany, aby być tym dobrym uczniem. Uczy się korzystać z „surowego podręcznika” zawierającego nowe informacje i generować własne „notatki do nauki” – jak to nazywa się w artykule „samodzielna edycja”— w dowolnej formie, która jest najskuteczniejsza w jego własnym uczeniu się.
Jak więc uczy się „uczyć się”?
Uczy się metodą prób i błędów, stosując proces zwany uczeniem się przez wzmacnianie. Pomyśl o tym jak o sztucznej inteligencji organizującej własne sesje studyjne.
- Zdobądź lekcję: Sztuczna inteligencja otrzymuje nową informację (np. fragment tekstu).
- Napisz notatki: Generuje „samodzielną edycję” — własne syntetyczne notatki na temat tych informacji. Może to być lista kluczowych implikacji, zestaw par pytań i odpowiedzi lub po prostu proste podsumowanie.
- Rozwiąż quiz: Sztuczna inteligencja jest na krótko dostrajana własne notatki a następnie natychmiast wziął udział w quizie dotyczącym nowych informacji.
- Zdobądź ocenę: Jeśli przejdzie quiz, otrzyma „nagrodę”. Te pozytywne opinie uczą modela, że „samodzielne” notatki, które właśnie napisał, były wysokiej jakości i skuteczne.
- Ucz się mądrzej: Jeśli się nie powiedzie, dowiaduje się, że jego notatki były złe i następnym razem próbuje innego formatu. Przez tysiące takich pętli sztuczna inteligencja nie tylko uczy się nowych faktów; To uczy się, jak się uczyć nowe fakty skuteczniej.
A wyniki?
Naukowcy przetestowali SEAL w dwóch kluczowych obszarach, a wyniki są uderzające. Najpierw przetestowano jego zdolność do uwzględniania nowej wiedzy. Podali wzorcowe fragmenty tekstu i przepytali je o treść. Po przeszkoleniu w SEAL, dokładność sztucznej inteligencji wzrosła do 47,0%. Oto kicker: ten wynik przewyższały dane syntetyczne generowane przez znacznie większy i potężniejszy GPT-4.1który uzyskał zaledwie 46,3%. Mniejszy model dosłownie nauczył się być „inteligentniejszy” w tym konkretnym zadaniu od swojego ogromnego konkurenta. Po drugie, przetestowali zdolność uczenia się nowych umiejętności na podstawie zaledwie kilku przykładów. Jest to niezwykle trudny punkt odniesienia w zakresie abstrakcyjnego rozumowania, zwany ARC. Zadaniem SEAL nie było tylko rozwiązanie zagadki, ale także wygenerowanie najlepsza strategia uczenia się dla siebie (np. „użyj tych rozszerzeń danych”, „ustaw tę szybkość uczenia”). Samodostosowująca się sztuczna inteligencja znalazła skuteczną strategię W 72,5% przypadków. Model bazowy, bez samouczenia się, zawiódł, osiągając sukces tylko w 20% przypadków.
Jaki jest haczyk?
Wszystko to brzmi świetnie, ale pragmatyk słusznie zapyta o wady. Naukowcy otwarcie mówią o ograniczeniach.
- Katastrofalne zapomnienie: Model nadal cierpi na klasyczny problem sztucznej inteligencji, jakim jest „katastrofalne zapominanie”. Wkuwając się do nowych egzaminów, zaczyna zapominać, czego nauczył się w połowie semestru. Poznanie nowego faktu może nadal nadpisywać stare.
- Jest boleśnie powolny: Proces ten nie jest szybki. Naukowcy zauważają, że narzut obliczeniowy jest „znaczny”. To wymaga 30-45 sekund na ocenę A pojedynczy samoedycja podczas pętli treningowej.
- Potrzebuje klucza odpowiedzi: Obecny system opiera się na „quizie” z poprawnymi odpowiedziami, który zapewnia najważniejszy sygnał nagrody.
Pomimo tych przeszkód zespół patrzy w przyszłość. Eksperci prognozują, że do 2028 r. zabraknie nam wysokiej jakości tekstu generowanego przez człowieka do szkolenia sztucznej inteligencji. Kiedy trafimy na tę „ścianę danych”, postęp będzie zależał od zdolności modelu do generowania własnych, przydatnych danych szkoleniowych. Badania te stanowią kluczowy plan działania tego rozwiązania, torujący drogę przyszłym „agentom” sztucznej inteligencji, którzy nie tylko odpowiadają na Twoje pytania, ale aktywnie uczą się na podstawie swoich interakcji ze światem i każdego dnia stają się mądrzejsi.





