DeepSeek ujawnia architekturę MODEL1 w aktualizacji GitHub przed V4

DeepSeek ujawnił szczegóły nowego modelu oznaczonego „MODEL1” dzięki ostatnim aktualizacjom bazy kodu FlashMLA GitHub. Identyfikator „MODEL1” pojawia się 28 razy w 114 plikach w repozytorium, co oznacza ujawnienie go w pierwszą rocznicę wydania przez firmę wersji R1. Rozwój ten wynika z doniesień, że DeepSeek planuje wypuszczenie modelu V4 nowej generacji około połowy lutego 2026 r., zbiegając się z Księżycowym Nowym Rokiem. Analiza zaktualizowanej bazy kodu przeprowadzona przez programistów wskazuje, że MODEL1 ma inną architekturę niż DeepSeek-V3.2, o nazwie kodowej „V32” w repozytorium. Rozbieżności w logice kodu sugerują zmiany w układzie pamięci podręcznej klucz-wartość, obsłudze rzadkości i dekodowaniu formatu danych FP8, wskazując na restrukturyzację w celu optymalizacji pamięci i wydajności obliczeniowej. Badacze społeczności LocalLLaMA na Reddicie znakomity aktualizacja kodu źródłowego FlashMLA dodała obszerną obsługę MODEL1, w tym zgodność z nadchodzącą architekturą Blackwell (SM100) firmy Nvidia i obecnymi chipami Hopper. Zmiany podobno pokazują powrót MODEL1 do ujednoliconego wymiaru standardu 512 i wprowadzenie funkcji „Świadomość pozycji wektora wartości”, a także potencjalne implementacje niedawno opublikowanego systemu pamięci warunkowej „Engram” firmy DeepSeek. Źródłem wskazówek technicznych było repozytorium FlashMLA, w którym znajduje się jądro dekodujące Multi-Head Latent Attention firmy DeepSeek zoptymalizowane pod kątem procesorów graficznych Nvidia Hopper. Oczekuje się, że model DeepSeek V4 będzie integrował architekturę Engram, która ułatwia efektywne wyszukiwanie z kontekstów przekraczających milion tokenów poprzez wykorzystanie systemu wyszukiwania podstawowych faktów zamiast ich ponownego obliczania w drodze obliczeń. Wewnętrzne testy przeprowadzone przez pracowników DeepSeek podobno sugerują, że V4 może przewyższać konkurencyjne modele Anthropic i OpenAI w testach porównawczych kodowania, szczególnie w przypadku długich podpowiedzi w kodzie. Rewelacja MODEL1 pojawia się, gdy DeepSeek zbliża się rok od debiutu R1 w styczniu 2025 r. Według ITPro, wydanie R1 spowodowało spadek wartości rynkowej Nvidii o 593 miliardy dolarów w ciągu jednego dnia. Trening modelu R1 firmy DeepSeek kosztuje podobno niecałe 6 milionów dolarów, a jego wydajność jest porównywalna lub przewyższająca model o1 OpenAI w testach porównawczych z zakresu matematyki i kodowania. Następnie firma wypuściła wersję 3.1 w sierpniu i wersję 3.2 w grudniu, przy czym wersja 3.2 została opisana jako oferująca wydajność równoważną GPT-5 OpenAI. DeepSeek nie skomentował oficjalnie MODEL1 ani nie potwierdził konkretnego terminu premiery V4.

Autor wyróżnionego obrazu

No Result