Elon Musk po raz kolejny znalazł się na pierwszych stronach gazet, dając światu przedsmak Cortexa, superkomputera szkoleniowego AI firmy X, który jest obecnie w budowie Fabryka Tesli Giga Texas. W filmie, który jest zarówno imponujący, jak i surrealistyczny, Musk pokazał, jak naprawdę wygląda fajny, wart miliard dolarów procesor graficzny AI. Ale jakby to nie wystarczyło, by opadły szczęki entuzjastów technologii, Musk niedawno zabrał się za swoją platformę X, by ujawnić, że prawdziwy hit — Colossus, klaster szkoleniowy H100 składający się ze 100 000 procesorów — oficjalnie pojawił się online.
Czym właściwie są klastry AI?
Klaster AI jako gigantyczny mózg złożony z tysięcy komputerów pracujących razem, aby przetwarzać ogromne ilości informacji z prędkością światła. Zamiast jednego komputera klastry takie jak Colossus używają tysięcy wyspecjalizowanych maszyn, z których każda wyposażona jest w potężne układy scalone (nazywane GPU), zaprojektowane do obsługi niezwykle złożonych obliczeń wymaganych przez sztuczną inteligencję.
Te klastry szkolą modele AI, dostarczając im ogromne ilości danych. Można to porównać do nauczania ucznia poprzez danie mu do przeczytania tysięcy książek w krótkim czasie.
Wszystkie szczegóły dotyczące Colossus xAI
Musk nie krył się z przechwałkami, twierdząc, że Colossus jest „najpotężniejszym systemem szkoleniowym AI na świecie”. Jeszcze bardziej imponujący jest fakt, że ten gigantyczny projekt został zbudowany „od początku do końca” w zaledwie 122 dni.
Biorąc pod uwagę skalę i złożoność, nie jest to małe osiągnięcie. Serwery dla klastra xAI zostały dostarczone przez Dell i Supermicro, a chociaż Musk nie podał dokładnej liczby, szacunki wskazują na oszałamiające 3–4 miliardy dolarów.
W ten weekend @xAI zespół uruchomił nasz klaster szkoleniowy Colossus 100k H100. Od początku do końca zajęło to 122 dni.
Colossus to najpotężniejszy system szkoleniowy AI na świecie. Co więcej, jego rozmiar podwoi się do 200k (50k H200s) w ciągu kilku miesięcy.
Doskonały…
— Elon Musk (@elonmusk) 2 września 2024 r.
A teraz zaczyna się robić naprawdę ciekawie. Chociaż system działa, nie jest jasne, ile z tych klastrów działa obecnie w pełni. To nic niezwykłego w przypadku systemów tej wielkości, ponieważ wymagają one rozległego debugowania i optymalizacji, zanim zaczną działać na pełnych obrotach. Ale gdy masz do czynienia z czymś na skalę Colossus, każdy szczegół się liczy, a nawet ułamek jego pełnego potencjału może przewyższyć większość innych systemów.
Przyszłość wygląda jeszcze bardziej intensywnie. Colossus ma zostać podwojony, a firma planuje dodać kolejne 100 000 procesorów graficznych, podzielonych pomiędzy obecne jednostki H100 firmy Nvidia oraz wyczekiwane układy H200. Ta aktualizacja będzie przede wszystkim wspierać szkolenie najnowszego i najbardziej zaawansowanego modelu sztucznej inteligencji firmy xAI, Grok-3, którego celem jest przesunięcie granic tego, co uważamy za możliwe w dziedzinie sztucznej inteligencji.
Źródło wyróżnionego obrazu: BoliviaInteligente/Unsplash