Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Standardowe modele sztucznej inteligencji nie radzą sobie z prostą matematyką bez specjalistycznego szkolenia

byKerem Gülen
30 grudnia 2025
in Badania
Home Badania
Share on FacebookShare on Twitter
Google Preferred Source

Z niedawnego badania wynika, że ​​duże modele językowe borykają się z mnożeniem wielocyfrowym bez specjalistycznych metod szkoleniowych, pomimo ich zdolności do radzenia sobie ze złożonymi zadaniami związanymi z kodowaniem i rozumowaniem. Badania opublikowane na arXiv serwer preprintów autorstwa Xiaoyana Bai i Chenhao Tana z Uniwersytetu w Chicago wraz ze współpracownikami z MIT, Uniwersytetu Harvarda, Uniwersytetu Waterloo i Google DeepMind zidentyfikowali przyczyny tego ograniczenia i znaleźli rozwiązania. Standardowe modele wielkojęzykowe osiągały dokładność mniejszą niż 1% podczas mnożenia dwóch liczb czterocyfrowych, nawet przy warstwach zwiększonych do 12. Modele te osiągnęły zbieżność w „lokalnym maksimum”, nie przechowując i nie odzyskując obliczeń pośrednich niezbędnych do mnożenia wielocyfrowego, które są klasyfikowane jako zależności dalekiego zasięgu. Z drugiej strony model przeszkolony metodą Implicit Chain of Thought (ICoT) osiągnął 100% dokładność. Model ICoT wykazał zdolność do śledzenia zależności dalekiego zasięgu i internalizacji procesów rozumowania poprzez stopniowe usuwanie pośrednich etapów rozumowania podczas szkolenia. Zespół badawczy odszyfrował wartości pośrednie, takie jak sumy bieżące, ze stanów wewnętrznych modelu ICoT, co nie było możliwe w przypadku standardowego modelu dostrajania. Model ICoT zorganizował swoją uwagę w odrębne ścieżki, obliczając produkty składające się z par cyfr we wczesnych warstwach i przechowując je w określonych lokalizacjach w celu pobrania w późniejszych warstwach. Stworzyło to wydajną strukturę wewnętrzną do mnożenia. Badanie wykazało również, że model ICoT reprezentował operacje wykorzystujące eleganckie struktury, kodujące cyfry jako wzory falowe (podstawy Fouriera) i organizujące arytmetykę przestrzennie. Podczas mnożenia par cyfr w modelu w naturalny sposób wykorzystano operację geometryczną zwaną sumą Minkowskiego, która nie została wyraźnie zaprogramowana przez badaczy. Badacze osiągnęli dokładność na poziomie 99% w modelu dwuwarstwowym, wprowadzając zmodyfikowany cel szkoleniowy, który nauczył model śledzenia sum bieżących na każdym etapie, przenosząc w ten sposób wartości pośrednie i produkty częściowe. Dodatek ten umożliwił modelowi opracowanie mechanizmów podobnych do ICoT, obejmujących przechowywanie i odzyskiwanie częściowych produktów oraz jednoczesne śledzenie wielu par cyfr. Chenhao Tan powiedział: „Nasze badania mają na celu sporządzenie mapy tego terenu”. W badaniu podkreślono, że spostrzeżenia dotyczące architektury i techniki szkoleniowe mogą pokonać przeszkody, których samo skalowanie nie jest w stanie pokonać, podkreślając znaczenie wbudowanych wskazówek w rozwijaniu możliwości sztucznej inteligencji. Odkrycia rzucają światło na podstawowe aspekty uczenia się i „myślenia” dużych modeli językowych, przy czym problem zależności dalekiego zasięgu wykracza poza arytmetykę i obejmuje inne sekwencyjne zadania w modelowaniu języka.


Autor wyróżnionego obrazu

Tags: matematykaSztuczna inteligencja

Related Posts

Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych

Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych

3 czerwca 2026
Sondaż pokazuje, że 71% Amerykanów uważa, że ​​sztuczna inteligencja rozwija się zbyt szybko

Sondaż pokazuje, że 71% Amerykanów uważa, że ​​sztuczna inteligencja rozwija się zbyt szybko

20 maja 2026
NordVPN stwierdza, że ​​skradzione brytyjskie karty płatnicze kosztują w ciemnej sieci 12 dolarów

NordVPN stwierdza, że ​​skradzione brytyjskie karty płatnicze kosztują w ciemnej sieci 12 dolarów

20 maja 2026
Centra danych i kryptowaluty mogą podnieść koszty energii o 57% do 2030 r

Centra danych i kryptowaluty mogą podnieść koszty energii o 57% do 2030 r

20 maja 2026
Badania wykazały, że umiejętności związane ze sztuczną inteligencją są obecnie niezbędne przy awansach zawodowych i podwyżkach

Badania wykazały, że umiejętności związane ze sztuczną inteligencją są obecnie niezbędne przy awansach zawodowych i podwyżkach

20 maja 2026
Nowa konstrukcja chipa magnetycznego może przewyższyć dzisiejsze akceleratory AI

Nowa konstrukcja chipa magnetycznego może przewyższyć dzisiejsze akceleratory AI

19 maja 2026

Recent Posts

  • Reguły rezygnacji z wyszukiwania Google AI powodują uruchomienie przeglądarki Enviromates
  • Sony ujawnia God of War: Laufey na PS5
  • Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych
  • Microsoft przedstawia Surface RTX Spark Dev Box dla obciążeń AI
  • Według doniesień brakuje nowych chipów Intel Core Ultra

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.