Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

DeepSeek ujawnia architekturę MODEL1 w aktualizacji GitHub przed V4

byKerem Gülen
21 stycznia 2026
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

DeepSeek ujawnił szczegóły nowego modelu oznaczonego „MODEL1” dzięki ostatnim aktualizacjom bazy kodu FlashMLA GitHub. Identyfikator „MODEL1” pojawia się 28 razy w 114 plikach w repozytorium, co oznacza ujawnienie go w pierwszą rocznicę wydania przez firmę wersji R1. Rozwój ten wynika z doniesień, że DeepSeek planuje wypuszczenie modelu V4 nowej generacji około połowy lutego 2026 r., zbiegając się z Księżycowym Nowym Rokiem. Analiza zaktualizowanej bazy kodu przeprowadzona przez programistów wskazuje, że MODEL1 ma inną architekturę niż DeepSeek-V3.2, o nazwie kodowej „V32” w repozytorium. Rozbieżności w logice kodu sugerują zmiany w układzie pamięci podręcznej klucz-wartość, obsłudze rzadkości i dekodowaniu formatu danych FP8, wskazując na restrukturyzację w celu optymalizacji pamięci i wydajności obliczeniowej. Badacze społeczności LocalLLaMA na Reddicie znakomity aktualizacja kodu źródłowego FlashMLA dodała obszerną obsługę MODEL1, w tym zgodność z nadchodzącą architekturą Blackwell (SM100) firmy Nvidia i obecnymi chipami Hopper. Zmiany podobno pokazują powrót MODEL1 do ujednoliconego wymiaru standardu 512 i wprowadzenie funkcji „Świadomość pozycji wektora wartości”, a także potencjalne implementacje niedawno opublikowanego systemu pamięci warunkowej „Engram” firmy DeepSeek. Źródłem wskazówek technicznych było repozytorium FlashMLA, w którym znajduje się jądro dekodujące Multi-Head Latent Attention firmy DeepSeek zoptymalizowane pod kątem procesorów graficznych Nvidia Hopper. Oczekuje się, że model DeepSeek V4 będzie integrował architekturę Engram, która ułatwia efektywne wyszukiwanie z kontekstów przekraczających milion tokenów poprzez wykorzystanie systemu wyszukiwania podstawowych faktów zamiast ich ponownego obliczania w drodze obliczeń. Wewnętrzne testy przeprowadzone przez pracowników DeepSeek podobno sugerują, że V4 może przewyższać konkurencyjne modele Anthropic i OpenAI w testach porównawczych kodowania, szczególnie w przypadku długich podpowiedzi w kodzie. Rewelacja MODEL1 pojawia się, gdy DeepSeek zbliża się rok od debiutu R1 w styczniu 2025 r. Według ITPro, wydanie R1 spowodowało spadek wartości rynkowej Nvidii o 593 miliardy dolarów w ciągu jednego dnia. Trening modelu R1 firmy DeepSeek kosztuje podobno niecałe 6 milionów dolarów, a jego wydajność jest porównywalna lub przewyższająca model o1 OpenAI w testach porównawczych z zakresu matematyki i kodowania. Następnie firma wypuściła wersję 3.1 w sierpniu i wersję 3.2 w grudniu, przy czym wersja 3.2 została opisana jako oferująca wydajność równoważną GPT-5 OpenAI. DeepSeek nie skomentował oficjalnie MODEL1 ani nie potwierdził konkretnego terminu premiery V4.


Autor wyróżnionego obrazu

Tags: głębokie szukaniemodel1

Related Posts

Snap wprowadza szczegółowe śledzenie czasu korzystania z ekranu w aktualizacji Family Center

Snap wprowadza szczegółowe śledzenie czasu korzystania z ekranu w aktualizacji Family Center

22 stycznia 2026
Zdjęcia Google przeprojektowują udostępnianie za pomocą wciągającej karuzeli pełnoekranowej

Zdjęcia Google przeprojektowują udostępnianie za pomocą wciągającej karuzeli pełnoekranowej

22 stycznia 2026
NexPhone wprowadza na rynek telefon z potrójnym systemem operacyjnym za 549 dolarów

NexPhone wprowadza na rynek telefon z potrójnym systemem operacyjnym za 549 dolarów

22 stycznia 2026
Antropiczne zmiany w testach rekrutacyjnych dzięki Claude AI

Antropiczne zmiany w testach rekrutacyjnych dzięki Claude AI

22 stycznia 2026
Blue Origin planuje wystrzelenie trzeciej misji w New Glenn pod koniec lutego

Blue Origin planuje wystrzelenie trzeciej misji w New Glenn pod koniec lutego

22 stycznia 2026
Anthropic zmienia Konstytucję Claude'a, dodając nowe zasady etyki bezpieczeństwa

Anthropic zmienia Konstytucję Claude'a, dodając nowe zasady etyki bezpieczeństwa

22 stycznia 2026

Recent Posts

  • Snap wprowadza szczegółowe śledzenie czasu korzystania z ekranu w aktualizacji Family Center
  • Zdjęcia Google przeprojektowują udostępnianie za pomocą wciągającej karuzeli pełnoekranowej
  • NexPhone wprowadza na rynek telefon z potrójnym systemem operacyjnym za 549 dolarów
  • Antropiczne zmiany w testach rekrutacyjnych dzięki Claude AI
  • Blue Origin planuje wystrzelenie trzeciej misji w New Glenn pod koniec lutego

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.