Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Standardowe modele sztucznej inteligencji nie radzą sobie z prostą matematyką bez specjalistycznego szkolenia

byKerem Gülen
30 grudnia 2025
in Research
Home Research
Share on FacebookShare on Twitter

Z niedawnego badania wynika, że ​​duże modele językowe borykają się z mnożeniem wielocyfrowym bez specjalistycznych metod szkoleniowych, pomimo ich zdolności do radzenia sobie ze złożonymi zadaniami związanymi z kodowaniem i rozumowaniem. Badania opublikowane na arXiv serwer preprintów autorstwa Xiaoyana Bai i Chenhao Tana z Uniwersytetu w Chicago wraz ze współpracownikami z MIT, Uniwersytetu Harvarda, Uniwersytetu Waterloo i Google DeepMind zidentyfikowali przyczyny tego ograniczenia i znaleźli rozwiązania. Standardowe modele wielkojęzykowe osiągały dokładność mniejszą niż 1% podczas mnożenia dwóch liczb czterocyfrowych, nawet przy warstwach zwiększonych do 12. Modele te osiągnęły zbieżność w „lokalnym maksimum”, nie przechowując i nie odzyskując obliczeń pośrednich niezbędnych do mnożenia wielocyfrowego, które są klasyfikowane jako zależności dalekiego zasięgu. Z drugiej strony model przeszkolony metodą Implicit Chain of Thought (ICoT) osiągnął 100% dokładność. Model ICoT wykazał zdolność do śledzenia zależności dalekiego zasięgu i internalizacji procesów rozumowania poprzez stopniowe usuwanie pośrednich etapów rozumowania podczas szkolenia. Zespół badawczy odszyfrował wartości pośrednie, takie jak sumy bieżące, ze stanów wewnętrznych modelu ICoT, co nie było możliwe w przypadku standardowego modelu dostrajania. Model ICoT zorganizował swoją uwagę w odrębne ścieżki, obliczając produkty składające się z par cyfr we wczesnych warstwach i przechowując je w określonych lokalizacjach w celu pobrania w późniejszych warstwach. Stworzyło to wydajną strukturę wewnętrzną do mnożenia. Badanie wykazało również, że model ICoT reprezentował operacje wykorzystujące eleganckie struktury, kodujące cyfry jako wzory falowe (podstawy Fouriera) i organizujące arytmetykę przestrzennie. Podczas mnożenia par cyfr w modelu w naturalny sposób wykorzystano operację geometryczną zwaną sumą Minkowskiego, która nie została wyraźnie zaprogramowana przez badaczy. Badacze osiągnęli dokładność na poziomie 99% w modelu dwuwarstwowym, wprowadzając zmodyfikowany cel szkoleniowy, który nauczył model śledzenia sum bieżących na każdym etapie, przenosząc w ten sposób wartości pośrednie i produkty częściowe. Dodatek ten umożliwił modelowi opracowanie mechanizmów podobnych do ICoT, obejmujących przechowywanie i odzyskiwanie częściowych produktów oraz jednoczesne śledzenie wielu par cyfr. Chenhao Tan powiedział: „Nasze badania mają na celu sporządzenie mapy tego terenu”. W badaniu podkreślono, że spostrzeżenia dotyczące architektury i techniki szkoleniowe mogą pokonać przeszkody, których samo skalowanie nie jest w stanie pokonać, podkreślając znaczenie wbudowanych wskazówek w rozwijaniu możliwości sztucznej inteligencji. Odkrycia rzucają światło na podstawowe aspekty uczenia się i „myślenia” dużych modeli językowych, przy czym problem zależności dalekiego zasięgu wykracza poza arytmetykę i obejmuje inne sekwencyjne zadania w modelowaniu języka.


Autor wyróżnionego obrazu

Tags: matematykaSztuczna inteligencja

Related Posts

Badanie natury przewiduje, że do 2050 r. powstanie 2B urządzeń zdrowotnych do noszenia

Badanie natury przewiduje, że do 2050 r. powstanie 2B urządzeń zdrowotnych do noszenia

7 stycznia 2026
Imperial College London rozwija sztuczną inteligencję, aby przyspieszyć odkrywanie leków nasercowych

Imperial College London rozwija sztuczną inteligencję, aby przyspieszyć odkrywanie leków nasercowych

6 stycznia 2026
DeepSeek wprowadza hiperpołączenia ograniczone przez kolektor dla R2

DeepSeek wprowadza hiperpołączenia ograniczone przez kolektor dla R2

6 stycznia 2026
Badacze z CMU opracowują samo poruszające się obiekty zasilane sztuczną inteligencją

Badacze z CMU opracowują samo poruszające się obiekty zasilane sztuczną inteligencją

31 grudnia 2025
Instytut AI Gleana Work identyfikuje 5 podstawowych napięć związanych ze sztuczną inteligencją

Instytut AI Gleana Work identyfikuje 5 podstawowych napięć związanych ze sztuczną inteligencją

31 grudnia 2025
Sztuczna inteligencja psuje badania akademickie cytatami z nieistniejących badań

Sztuczna inteligencja psuje badania akademickie cytatami z nieistniejących badań

30 grudnia 2025

Recent Posts

  • Google Cloud uruchamia agentów zakupowych Gemini Enterprise
  • Samsung potwierdza wydarzenie Unpacked dla serii Galaxy S26, które odbędzie się 25 lutego
  • Zniknęło 550 000 kont: pierwszy raport Meta na temat australijskiego zakazu mediów społecznościowych
  • Gwynne Shotwell wkracza w światło reflektorów, gdy SpaceX rozważa pierwszą ofertę publiczną o wartości 1,5 biliona dolarów
  • Xiaomi liczy na całkowitą niezależność dzięki nowemu chipowi i systemowi operacyjnemu

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.