Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

DeepSeek ujawnia architekturę MODEL1 w aktualizacji GitHub przed V4

byKerem Gülen
21 stycznia 2026
in Aktualności, Sztuczna Inteligencja
Home Aktualności
Share on FacebookShare on Twitter
Google Preferred Source

DeepSeek ujawnił szczegóły nowego modelu oznaczonego „MODEL1” dzięki ostatnim aktualizacjom bazy kodu FlashMLA GitHub. Identyfikator „MODEL1” pojawia się 28 razy w 114 plikach w repozytorium, co oznacza ujawnienie go w pierwszą rocznicę wydania przez firmę wersji R1. Rozwój ten wynika z doniesień, że DeepSeek planuje wypuszczenie modelu V4 nowej generacji około połowy lutego 2026 r., zbiegając się z Księżycowym Nowym Rokiem. Analiza zaktualizowanej bazy kodu przeprowadzona przez programistów wskazuje, że MODEL1 ma inną architekturę niż DeepSeek-V3.2, o nazwie kodowej „V32” w repozytorium. Rozbieżności w logice kodu sugerują zmiany w układzie pamięci podręcznej klucz-wartość, obsłudze rzadkości i dekodowaniu formatu danych FP8, wskazując na restrukturyzację w celu optymalizacji pamięci i wydajności obliczeniowej. Badacze społeczności LocalLLaMA na Reddicie znakomity aktualizacja kodu źródłowego FlashMLA dodała obszerną obsługę MODEL1, w tym zgodność z nadchodzącą architekturą Blackwell (SM100) firmy Nvidia i obecnymi chipami Hopper. Zmiany podobno pokazują powrót MODEL1 do ujednoliconego wymiaru standardu 512 i wprowadzenie funkcji „Świadomość pozycji wektora wartości”, a także potencjalne implementacje niedawno opublikowanego systemu pamięci warunkowej „Engram” firmy DeepSeek. Źródłem wskazówek technicznych było repozytorium FlashMLA, w którym znajduje się jądro dekodujące Multi-Head Latent Attention firmy DeepSeek zoptymalizowane pod kątem procesorów graficznych Nvidia Hopper. Oczekuje się, że model DeepSeek V4 będzie integrował architekturę Engram, która ułatwia efektywne wyszukiwanie z kontekstów przekraczających milion tokenów poprzez wykorzystanie systemu wyszukiwania podstawowych faktów zamiast ich ponownego obliczania w drodze obliczeń. Wewnętrzne testy przeprowadzone przez pracowników DeepSeek podobno sugerują, że V4 może przewyższać konkurencyjne modele Anthropic i OpenAI w testach porównawczych kodowania, szczególnie w przypadku długich podpowiedzi w kodzie. Rewelacja MODEL1 pojawia się, gdy DeepSeek zbliża się rok od debiutu R1 w styczniu 2025 r. Według ITPro, wydanie R1 spowodowało spadek wartości rynkowej Nvidii o 593 miliardy dolarów w ciągu jednego dnia. Trening modelu R1 firmy DeepSeek kosztuje podobno niecałe 6 milionów dolarów, a jego wydajność jest porównywalna lub przewyższająca model o1 OpenAI w testach porównawczych z zakresu matematyki i kodowania. Następnie firma wypuściła wersję 3.1 w sierpniu i wersję 3.2 w grudniu, przy czym wersja 3.2 została opisana jako oferująca wydajność równoważną GPT-5 OpenAI. DeepSeek nie skomentował oficjalnie MODEL1 ani nie potwierdził konkretnego terminu premiery V4.


Autor wyróżnionego obrazu

Tags: głębokie szukaniemodel1

Related Posts

Meta udostępnia aplikację Pocket do gier generatywnych wykorzystujących sztuczną inteligencję

Meta udostępnia aplikację Pocket do gier generatywnych wykorzystujących sztuczną inteligencję

3 lipca 2026
Cloudflare zablokuje roboty AI, chyba że strony wyrażą na to zgodę

Cloudflare zablokuje roboty AI, chyba że strony wyrażą na to zgodę

3 lipca 2026
Opera dodaje ochronę przed atakami typu „kopiuj i wklej” ClickFix

Opera dodaje ochronę przed atakami typu „kopiuj i wklej” ClickFix

3 lipca 2026
Tesla wprowadza do Stanów Zjednoczonych Model Y z dużym rozstawem osi

Tesla wprowadza do Stanów Zjednoczonych Model Y z dużym rozstawem osi

3 lipca 2026
Firma Microsoft bada możliwość zamiany dysku na wersję cyfrową w grach na konsolę Xbox

Firma Microsoft bada możliwość zamiany dysku na wersję cyfrową w grach na konsolę Xbox

2 lipca 2026
Sony zakończy sprzedaż fizycznych dysków z grami PlayStation w 2028 roku

Sony zakończy sprzedaż fizycznych dysków z grami PlayStation w 2028 roku

2 lipca 2026

Recent Posts

  • Meta udostępnia aplikację Pocket do gier generatywnych wykorzystujących sztuczną inteligencję
  • Cloudflare zablokuje roboty AI, chyba że strony wyrażą na to zgodę
  • Opera dodaje ochronę przed atakami typu „kopiuj i wklej” ClickFix
  • OpenAI proponuje rządowi udziały we wspieranych przez władze federalne firmach zajmujących się sztuczną inteligencją
  • Sąd UE podtrzymuje karę antymonopolową w wysokości 4,1 miliarda euro nałożoną na Google za korzystanie z Androida

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.