Deepseek v3.1 rywale GPT-5 z modelem parametrów 685B

W styczniu 2025 r. Deepseek, chiński startup AI, uruchomił R1, model AI, który rywalizował z LLM najwyższego poziomu z Openai i Anthropic. Zbudowany za ułamek kosztów z mniejszą liczbą układów NVIDIA, Deepseek wydał teraz V3.1, aktualizację swojego flagowego modelu V3, wycenionego do podcięcia Openai i zoptymalizowanego pod kątem chińskich układów.

V3.1 Deepseek został po cichu wydany przez wiadomość na temat WeChat, wybitnego chińskiego wiadomości i aplikacji społecznej oraz na platformie Hulging Face. Rozwój ten podkreśla kilka kluczowych narracji w obecnym krajobrazie AI. Wysiłki Deepseek są kluczowe dla ambicji Chin do opracowywania i kontrolowania zaawansowanych systemów AI niezależnie od zagranicznych technologii.

Nowy model Deepseek V3 jest specjalnie zoptymalizowany w celu skutecznego działania na chińskich układach, odzwierciedlając strategiczne ruch Chin w kierunku samodzielności technologicznej. Podczas gdy amerykańskie firmy wykazały niechęć do przyjmowania modeli Deepseek, zyskały znaczną przyczepność w Chinach i są coraz częściej stosowane w innych regionach na całym świecie. Niektóre amerykańskie firmy zintegrowały nawet model rozumowania R1 Deepseek do swoich aplikacji. Naukowcy ostrzegają jednak, że wyniki tych modeli często ściśle zgodne z narracjami zatwierdzonymi przez chińską partię komunistyczną, zwiększając obawy dotyczące ich neutralności i niezawodności.

Chińskie ambicje AI wykraczają poza Deepseek, z innymi znaczącymi modelami, w tym Qwen Alibaba, księżycowego AI Kimi i Ernie Baidu. Ostatnie wydanie Deepseeka, a następnie uważnie Uruchomienie GPT-5 Openaipodkreśla zaangażowanie Chin w utrzymanie tempa lub przewyższające, prowadząc amerykańskie laboratoria AI. Wprowadzenie GPT-5 nie spełniło oczekiwań branżowych, co dodatkowo podkreśla znaczenie postępów Deepseek.

Dyrektor generalny Openai, Sam Altman, przyznał, że konkurencja ze strony chińskich modeli typu open source, w tym Deepseek, wpłynęła na decyzję Openai o wydaniu własnych modeli otwartych. Podczas ostatniej dyskusji z reporterami Altman stwierdził, że gdyby Openai nie zrobił tego kroku, krajobraz AI prawdopodobnie byłby zdominowany przez chińskie modele open source. Podkreślił, że ta kwestia była istotnym czynnikiem w ich procesie decyzyjnym.

Rząd USA udzielił licencji NVIDIA i AMD na eksport określonych układów AI do Chin, w tym H20 NVIDIA. Licencje te są uzależnione od firm, które zgadzają się przekazać 15% przychodów z niniejszej sprzedaży rządowi USA. W odpowiedzi Pekin przeprowadził się, aby ograniczyć zakupy nvidia. To nastąpiło po oświadczeniu sekretarza handlu Howarda Lutnicka CNBC Że USA nie sprzedają Chin najlepszej, drugiej najlepszej, a nawet trzeciej najlepszej technologii.

Optymalizacja Deepseek dla chińskich układów wskazuje strategiczny ruch w celu przeciwdziałania kontroli eksportu USA i zmniejszenia zależności od NVIDIA. Firma stwierdziła w ogłoszeniu WeChat, że nowy format modelu jest zoptymalizowany pod kątem „krajowych układów krajowych nowej generacji”.

Altman wyraził obawy, że USA mogą nie docenić złożoności i znaczenia postępów Chin w sztucznej inteligencji. Ostrzegł, że sama kontrola eksportu może nie być wystarczająca, aby sprostać wyzwaniom, jakiego stanowi szybki postęp Chin. Wyraził swoje obawy dotyczące rosnących możliwości Chin w dziedzinie sztucznej inteligencji.

Model Deepseek V3.1 zawiera postęp techniczny, które są przede wszystkim korzystne dla programistów. Innowacje te mają na celu zmniejszenie kosztów operacyjnych i zwiększenie wszechstronności w porównaniu z wieloma zamkniętymi i droższymi konkurencyjnymi modelami. V3.1 ma 685 miliardów parametrów, umieszczając go wśród najlepszych modeli „granicy”. Jego projekt „mieszanki ekspertów” aktywuje tylko ułamek modelu dla każdego zapytania, obniżając koszty obliczeniowe dla programistów. W przeciwieństwie do wcześniejszych modeli DeepSeek, które oddzieliły zadania wymagające natychmiastowych odpowiedzi od tych potrzebujących rozumowania krok po kroku, v3.1 integruje obie możliwości z jednym systemem.

GPT-5, wraz z najnowszymi modelami Anthropic i Google, również zawierają tę zintegrowaną zdolność. Jednak niewiele modeli otwartych osiągnęło ten poziom integracji. Ben Dickson, założyciel bloga TechTalks, opisuje architekturę hybrydową v3.1 jako „największą funkcję”.

William Falcon, założyciel i dyrektor generalny Lightning AI, zauważył, że ciągłe ulepszenia Deepseek są godne uwagi, nawet jeśli v3.1 nie jest tak znaczącym skokiem jak wcześniejszy model R1. Stwierdził, że firma nadal wprowadza „nie-marginalne ulepszenia”, co jest imponujące. Falcon przewiduje, że Openai zareaguje, jeśli jego model open source zacznie znacznie opóźniać. Zwrócił również uwagę, że model Deepseek jest trudniejszy dla programistów do wdrożenia w produkcji w porównaniu do wersji Openai, co jest stosunkowo łatwe do wdrożenia.

Wydanie Deepseek podkreśla rosnące postrzeganie sztucznej inteligencji jako kluczowego elementu konkurencji technologicznej między USA a Chinami. Fakt, że chińskie firmy twierdzą, że budują najwyższe modele AI po obniżonych kosztach, zapewnia konkurentom nam powód do dokładnej oceny strategii utrzymania przywództwa w tej dziedzinie.

Polecane wizerunki