Tuż przed rozpoczęciem nowego roku społeczność sztucznej inteligencji została zapoznana z potencjalnym przełomem w szkoleniu modeli. Zespół badaczy z chińskiej firmy DeepSeek zajmującej się sztuczną inteligencją opublikował plik papier opisując nowatorskie podejście architektoniczne zwane hiperpołączeniami z ograniczeniami rozmaitości, w skrócie mHC. Ta nowa metodologia może zapewnić inżynierom możliwość budowania i skalowania dużych modeli językowych bez ponoszenia zwykle wymaganych wygórowanych kosztów obliczeniowych i kapitału.
DeepSeek po raz pierwszy znalazł się w centrum uwagi kultury rok temu wraz z wydaniem R1. Model ten dorównywał możliwościami o1 OpenAI, ale podobno został przeszkolony za ułamek ceny. Publikacja ta była szokiem dla programistów z USA, ponieważ podważyła założenie, że tylko ogromne rezerwy kapitału i sprzętu mogą stworzyć najnowocześniejszą sztuczną inteligencję. Nowo opublikowana publikacja mHC, hostowana na serwerze preprintów arXiv, może służyć jako ramy technologiczne dla nadchodzącego modelu DeepSeek – R2. Pierwotnie model R2 miał pojawić się w połowie 2025 r., ale według doniesień został przełożony ze względu na obawy dyrektora generalnego Lianga Wenfenga dotyczące wydajności i ograniczonego dostępu Chin do zaawansowanych chipów AI.
W nowym artykule podjęto próbę wypełnienia złożonej luki technicznej, która obecnie utrudnia skalowalność sztucznej inteligencji. Duże modele językowe są zbudowane na sieciach neuronowych zaprojektowanych w celu zachowania sygnałów w wielu warstwach. Jednak w miarę powiększania się modelu i dodawania kolejnych warstw sygnał może zostać osłabiony lub zdegradowany, co zwiększa ryzyko przekształcenia się w szum. Naukowcy porównują to do gry w „telefon”: im więcej osób jest zaangażowanych w łańcuch, tym większe ryzyko, że oryginalna wiadomość zostanie pomieszana lub zmieniona. Głównym wyzwaniem inżynieryjnym jest optymalizacja kompromisu między plastycznością a stabilnością, zapewniając zachowanie sygnałów w jak największej liczbie warstw bez degradacji.
Autorzy artykułu, w tym dyrektor generalny Liang Wenfeng, oparli swoje badania na hiperpołączeniach (HC), frameworku wprowadzonym w 2024 roku przez badaczy z ByteDance. Standardowe HC dywersyfikują kanały, za pośrednictwem których warstwy sieci neuronowej dzielą się informacjami, ale stwarzają ryzyko utraty sygnału i wiążą się z wysokimi kosztami pamięci, co utrudnia ich wdrożenie na dużą skalę. Architektura mHC DeepSeek ma na celu rozwiązanie tego problemu poprzez ograniczenie hiperłączności w modelu. Podejście to pozwala zachować złożoność informacyjną zapewnianą przez HC, pomijając jednocześnie problemy z pamięcią, umożliwiając uczenie bardzo złożonych modeli w sposób praktyczny nawet dla programistów z ograniczonymi zasobami.
Debiut frameworka mHC sugeruje zwrot w ewolucji rozwoju sztucznej inteligencji. Do niedawna w branży panowała opinia, że tylko najbogatsze firmy mogą sobie pozwolić na budowanie pionierskich modeli. DeepSeek w dalszym ciągu pokazuje, że przełomów można dokonać dzięki sprytnej inżynierii, a nie czystej sile finansowej. Publikując te badania, DeepSeek udostępnił metodę mHC mniejszym programistom, potencjalnie demokratyzując dostęp do zaawansowanych możliwości sztucznej inteligencji, jeśli ta architektura sprawdzi się w przewidywanym modelu R2.





