AMD ma odsłonięte Instella, rodzina w pełni open source modeli językowych zawierających 3 miliardy parametrów, wyszkolonych od zera na GPU AMD Instinct ™ MI300X. Modele Instella przewyższają istniejące otwarte modele o podobnych rozmiarach i skutecznie konkurują z wiodącymi modelami otwartych, w tym LLAMA-3.2-3B, GEMMA-2-2B i QWEN-2.5-3B, w tym ich wersjach dostosowanych do instrukcji.
AMD zaprezentuje Instella: Modele języków typu open source przewyższają rywali
Instella wykorzystuje architekturę autoregresji transformatora składającej się z 36 warstw dekodera i 32 głowy uwagi, umożliwiając jej przetwarzanie długich sekwencji do 4096 tokenów. Model wykorzystuje słownictwo około 50 000 tokenów, zarządzanych przez tokenizer Olmo, dzięki czemu jest biegły w generowaniu i interpretacji tekstu w różnych domenach.
Procedura szkolenia dla Instella podkreśla współpracę między innowacjami AMD i innowacjami oprogramowania. Ten nowy model opiera się na podstawach ustalonych przez poprzednie modele 1 miliardów parametrów AMD, przechodząc od treningu na 64 instynkcie MI250 GPU z 1,3 bilionem tokenów do użycia 128 instynktowych GPU MI300X GPU z 4,15 bilionem tokenów dla obecnego modelu 3-milionowego parametera.

Porównując Instella z wcześniejszymi modelami, AMD informuje, że nie tylko przewyższa istniejące w pełni otwarte modele, ale także osiąga wydajność konkurencyjną w stosunku do najnowocześniejszych modeli otwartych, oznaczając znaczący kamień milowy w dziedzinie przetwarzania języka naturalnego. Ta inicjatywa jest zgodna z zaangażowaniem AMD w uczynienie zaawansowanej technologii bardziej dostępną oraz wspierającą współpracę i innowacje w społeczności AI.
Ceny AMD RX 9000 może sprawić, że przemyślaś ten zakup RTX 5090
Fazy modelu Instella i dane szkoleniowe
To wydanie obejmuje kilka wersji modeli Instella, z których każda reprezentuje różne etapy szkolenia:
Model | Scena | Dane szkoleniowe (tokeny) | Opis |
---|---|---|---|
Instella-3B-STAGE1 | Wstępne szkolenie (etap 1) | 4,065 biliona | Pierwszy etap treningowy w celu rozwijania biegłości w języku naturalnym. |
Instella-3b | Wstępny trening (etap 2) | 57,575 miliarda | Wstępne szkolenie drugiego etapu w celu zwiększenia możliwości rozwiązywania problemów. |
Instella-3B-Sft | Sft | 8,902 miliarda (epoki x3) | Nadzorowane dostrajanie (SFT), aby umożliwić możliwości związane z instrukcją. |
Instruct Instella-3B | DPO | 760 milionów | Dostosowanie się do ludzkich preferencji i poprawy możliwości czatu z bezpośrednią optymalizacją preferencji (DPO). |
W wieloetapowym rurociągu w pierwszym etapie przed treningiem wykorzystano 4,065 biliona tokenów z różnych zestawów danych, ustanawiając podstawowe zrozumienie języka. Późniejsze szkolenie dodatkowych 57,575 miliardów tokenów dodatkowo zwiększyło wydajność modelu w różnych zadaniach i domenach.
Podczas nadzorowanego dostrajania Instella-3B-SFT został przeszkolony z 8,9 miliarda tokenów, poprawiając interaktywne możliwości reakcji. Ostateczny etap, instruct Instella-3B, przeszedł szkolenie wyrównania z bezpośrednią optymalizacją preferencji przy użyciu 0,76 miliarda tokenów, zapewniając, że wyniki modelu są wyrównane z ludzkimi wartościami i preferencjami.
AMD sprawiło, że wszystkie artefakty powiązane z modelami Instella w pełni open source, w tym masy modelu, konfiguracje szkoleniowe, zestawy danych i kod, wspieranie współpracy i innowacji w społeczności AI. Do tych zasobów można uzyskać za pośrednictwem Przytulanie twarzy Karty modelowe i Github Repozytoria.
Wyróżniony obraz obrazu: Amd