Chińska firma Deepseek AI wydała swój duży model językowy, R1, który został przeszkolony za jedyne 294 000 USD przy użyciu 512 NVIDIA H800 GPU. W artykule opublikowanym w czasopiśmie Naturafirma wyszczególniła, w jaki sposób osiągnęła ten niski koszt, stosując metodę uczenia się wzmocnienia prób i błędów, umożliwiając modelowi osiągnięcie konkurencyjnych wyników w stosunku do rywali o znacznie większych budżetach, takich jak Openai.
Jak działa metoda uczenia się wzmocnienia Deepseek
Kluczową innowacją Deepseek było odejście od drogiego, intensywnego człowieka procesu tworzenia zestawów danych. Tradycyjne modele AI zadań rozumujących są często szkolone w zakresie rozległych zestawów danych, w których eksperci ludzcy dostarczają rozwiązania krok po kroku złożonych problemów. Zamiast tego Deepseek opracował autonomiczny system uczenia się, który wykorzystuje uczenie się wzmocnienia, aby udoskonalić umiejętności rozumowania modelu poprzez system nagród i kar. Naukowcy z Carnegie Mellon University, w artykule towarzyszącym papierowi przyrodniczym, porównali proces z dzieckiem uczącym się gry wideo.
„Gdy dziecko porusza się z Awatarem przez świat gry, uczą się poprzez próbę i błąd, że niektóre działania (takie jak zbieranie złotych monet) przynoszą punkty, podczas gdy inne (takie jak wpadanie na wrogów) przywróciły ich wynik.
Ta metoda była szczególnie skuteczna w zadaniach z matematyki i programowania, w których odpowiedzi można definitywnie zweryfikować jako dobre lub złe. Model generowałby potencjalne rozwiązania, które następnie oceniono za pomocą zautomatyzowanego systemu punktacji. Następnie iterowałby swoje podejście, dopóki nie osiągnie najwyższego wyniku, wszystko bez interwencji człowieka. Ten wydajny, samokierowany proces pozwolił firmie zbudować potężny system AI z ułamkiem inwestycji wymaganej przez jej konkurentów.
Ograniczenia i obawy dotyczące modelu
Chociaż podejście do uczenia się wzmocnienia okazało się opłacalne, ma również pewne ograniczenia. Wyjścia modelu często ukrywają podstawowe kroki rozumowania, co utrudnia człowiekowi zrozumienie, w jaki sposób doszedł do wniosku. Poproszony o przedstawienie uzasadnienia, R1 wygenerował wyjątkowo długie i trudne do odczytania wyjaśnienia-czasem ponad 10 000 słów-które przełączyły się między angielskim a chińskim. Technika ta walczyła również z zadaniami wymagającymi niuansów lub subiektywności, gdzie nie ma pojedynczej odpowiedzi „poprawnej”. Oprócz ograniczeń technicznych rozwój modelu w Chinach wzbudził obawy dotyczące potencjalnego wpływu rządu. Niedawny raport z Washington Post wykazał, że R1 wykazywał uprzedzenia w swoich wynikach. Naukowcy odkryli, że model odmówiłby generowania kodu o głównych wadach bezpieczeństwa, gdy pod intuniską grupy obejmują wrażliwe przez chińskie władze. Jednak, gdy poproszono jednak o utworzenie kodu dla podmiotów takich jak Tybet, Tajwan lub Ruch religijny Falun Gong, model stworzył mniej bezpieczne wersje o wbudowanych lukach. Sugeruje to, że zachowanie modelu może być kształtowane przez priorytety polityczne chińskiego rządu.





