Firma NVIDIA zaprezentowała znaczący postęp w szkoleniu modeli sztucznej inteligencji wraz z wprowadzeniem na rynek narzędzia Znormalizowany transformator (nGPT). Ta nowa architektura, zaprojektowana w celu usprawnienia procesu uczenia dużych modeli językowych (LLM), może skrócić czas uczenia od 4 do 20 razy, a wszystko to przy jednoczesnym zachowaniu stabilności i dokładności modelu. Model nGPT usprawnia proces szkolenia, zużywając mniej zasobów i oferując bardziej wydajne rozwiązanie w zakresie rozwoju sztucznej inteligencji.
Co wyróżnia nGPT: Uczenie się hipersferyczne
U podstaw wydajności nGPT leży koncepcja zwana uczenie się reprezentacji hipersferycznej. W tradycyjnych modelach transformatorów dane są często przetwarzane bez spójnej struktury geometrycznej. Technologia nGPT firmy NVIDIA zmienia ten stan, mapując wszystkie kluczowe komponenty — takie jak osadzania, macierze uwagi i stany ukryte — na powierzchni hipersfery. Ta geometryczna konfiguracja pomaga zapewnić równowagę wszystkich warstw modelu podczas treningu, tworząc bardziej stabilny i wydajny proces uczenia się.
Takie podejście znacznie zmniejsza liczbę kroków szkoleniowych. Zamiast stosować spadek masy bezpośrednio do ciężarów modeli, jak poprzednie modele, nGPT polega na wyuczone parametry skalowaniaktóre optymalizują sposób dostosowywania się modelu podczas treningu. Co ważne, metoda ta eliminuje potrzebę stosowania innych technik normalizacji, takich jak Norma warstwy Lub Norma RMSdzięki czemu proces jest prostszy i szybszy.

Szybsze szkolenie przy mniejszych zasobach
Wyniki architektury nGPT są jasne. W testach przeprowadzonych z wykorzystaniem zestawu danych OpenWebText, nGPT firmy NVIDIA konsekwentnie przewyższało tradycyjne modele GPT zarówno pod względem szybkości, jak i wydajności. Przy wprowadzaniu tekstu o długości nawet 4000 tokenów, nGPT wymagało znacznie mniejszej liczby rund szkoleniowych, aby osiągnąć podobną utratę walidacji, drastycznie skracając czas potrzebny na uczenie tych złożonych modeli.
Dodatkowo hipersferyczna struktura nGPT zapewnia lepszą jakość osadzanie separacji. Oznacza to, że model może łatwiej rozróżniać różne dane wejściowe, co prowadzi do większej dokładności podczas standardowych testów AI. Ulepszone uogólnienie modelu umożliwia również lepsze wykonywanie zadań wykraczających poza wstępne szkolenie, przyspieszając zbieżność przy jednoczesnym zachowaniu wysokiego poziomu precyzji.

Dlaczego ma to znaczenie w przypadku szkolenia AI
Kluczową zaletą nGPT jest możliwość łączenia obu normalizacja I reprezentacja uczenia się w jedną ujednoliconą strukturę. Taka konstrukcja upraszcza architekturę modelu, ułatwiając skalowanie i dostosowywanie do bardziej złożonych systemów hybrydowych. Może to potencjalnie doprowadzić do opracowania w przyszłości jeszcze potężniejszych systemów sztucznej inteligencji, ponieważ podejście nGPT można by zintegrować z innymi typami modeli i architektur.
Autor wyróżnionego obrazu: Kerem Gülen/Ideogram