Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Deepseek wypuszcza model R1 przeszkolony za 294 000 $ na 512 GPU H800

byAytun Çelebi
19 września 2025
in Sztuczna Inteligencja
Home Aktualności Sztuczna Inteligencja
Share on FacebookShare on Twitter
Google Preferred Source

Chińska firma Deepseek AI wydała swój duży model językowy, R1, który został przeszkolony za jedyne 294 000 USD przy użyciu 512 NVIDIA H800 GPU. W artykule opublikowanym w czasopiśmie Naturafirma wyszczególniła, w jaki sposób osiągnęła ten niski koszt, stosując metodę uczenia się wzmocnienia prób i błędów, umożliwiając modelowi osiągnięcie konkurencyjnych wyników w stosunku do rywali o znacznie większych budżetach, takich jak Openai.

Jak działa metoda uczenia się wzmocnienia Deepseek

Kluczową innowacją Deepseek było odejście od drogiego, intensywnego człowieka procesu tworzenia zestawów danych. Tradycyjne modele AI zadań rozumujących są często szkolone w zakresie rozległych zestawów danych, w których eksperci ludzcy dostarczają rozwiązania krok po kroku złożonych problemów. Zamiast tego Deepseek opracował autonomiczny system uczenia się, który wykorzystuje uczenie się wzmocnienia, aby udoskonalić umiejętności rozumowania modelu poprzez system nagród i kar. Naukowcy z Carnegie Mellon University, w artykule towarzyszącym papierowi przyrodniczym, porównali proces z dzieckiem uczącym się gry wideo.

„Gdy dziecko porusza się z Awatarem przez świat gry, uczą się poprzez próbę i błąd, że niektóre działania (takie jak zbieranie złotych monet) przynoszą punkty, podczas gdy inne (takie jak wpadanie na wrogów) przywróciły ich wynik.

Ta metoda była szczególnie skuteczna w zadaniach z matematyki i programowania, w których odpowiedzi można definitywnie zweryfikować jako dobre lub złe. Model generowałby potencjalne rozwiązania, które następnie oceniono za pomocą zautomatyzowanego systemu punktacji. Następnie iterowałby swoje podejście, dopóki nie osiągnie najwyższego wyniku, wszystko bez interwencji człowieka. Ten wydajny, samokierowany proces pozwolił firmie zbudować potężny system AI z ułamkiem inwestycji wymaganej przez jej konkurentów.

Ograniczenia i obawy dotyczące modelu

Chociaż podejście do uczenia się wzmocnienia okazało się opłacalne, ma również pewne ograniczenia. Wyjścia modelu często ukrywają podstawowe kroki rozumowania, co utrudnia człowiekowi zrozumienie, w jaki sposób doszedł do wniosku. Poproszony o przedstawienie uzasadnienia, R1 wygenerował wyjątkowo długie i trudne do odczytania wyjaśnienia-czasem ponad 10 000 słów-które przełączyły się między angielskim a chińskim. Technika ta walczyła również z zadaniami wymagającymi niuansów lub subiektywności, gdzie nie ma pojedynczej odpowiedzi „poprawnej”. Oprócz ograniczeń technicznych rozwój modelu w Chinach wzbudził obawy dotyczące potencjalnego wpływu rządu. Niedawny raport z Washington Post wykazał, że R1 wykazywał uprzedzenia w swoich wynikach. Naukowcy odkryli, że model odmówiłby generowania kodu o głównych wadach bezpieczeństwa, gdy pod intuniską grupy obejmują wrażliwe przez chińskie władze. Jednak, gdy poproszono jednak o utworzenie kodu dla podmiotów takich jak Tybet, Tajwan lub Ruch religijny Falun Gong, model stworzył mniej bezpieczne wersje o wbudowanych lukach. Sugeruje to, że zachowanie modelu może być kształtowane przez priorytety polityczne chińskiego rządu.


Polecane wizerunki

Tags: DeepseekWyróżniony

Related Posts

Anthropic zaprasza 150 kolejnych organizacji do projektu Glasswing

Anthropic zaprasza 150 kolejnych organizacji do projektu Glasswing

3 czerwca 2026
Microsoft przedstawia projekt Solara, który będzie przyszłością skupiającą się na agentach

Microsoft przedstawia projekt Solara, który będzie przyszłością skupiającą się na agentach

3 czerwca 2026
Google umożliwi stronom internetowym rezygnację z wyników wyszukiwania AI

Google umożliwi stronom internetowym rezygnację z wyników wyszukiwania AI

3 czerwca 2026
OpenAI rozszerza Kodeks o wtyczki korporacyjne i nową funkcję Witryn

OpenAI rozszerza Kodeks o wtyczki korporacyjne i nową funkcję Witryn

3 czerwca 2026
Meta łata lukę AI, która umożliwiała przejmowanie kont na Instagramie

Meta łata lukę AI, która umożliwiała przejmowanie kont na Instagramie

2 czerwca 2026
Popularny pakiet Codex przyłapany na kradzieży danych uwierzytelniających

Popularny pakiet Codex przyłapany na kradzieży danych uwierzytelniających

2 czerwca 2026

Recent Posts

  • Reguły rezygnacji z wyszukiwania Google AI powodują uruchomienie przeglądarki Enviromates
  • Sony ujawnia God of War: Laufey na PS5
  • Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych
  • Microsoft przedstawia Surface RTX Spark Dev Box dla obciążeń AI
  • Według doniesień brakuje nowych chipów Intel Core Ultra

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.