Z niedawnego badania wynika, że duże modele językowe borykają się z mnożeniem wielocyfrowym bez specjalistycznych metod szkoleniowych, pomimo ich zdolności do radzenia sobie ze złożonymi zadaniami związanymi z kodowaniem i rozumowaniem. Badania opublikowane na arXiv serwer preprintów autorstwa Xiaoyana Bai i Chenhao Tana z Uniwersytetu w Chicago wraz ze współpracownikami z MIT, Uniwersytetu Harvarda, Uniwersytetu Waterloo i Google DeepMind zidentyfikowali przyczyny tego ograniczenia i znaleźli rozwiązania. Standardowe modele wielkojęzykowe osiągały dokładność mniejszą niż 1% podczas mnożenia dwóch liczb czterocyfrowych, nawet przy warstwach zwiększonych do 12. Modele te osiągnęły zbieżność w „lokalnym maksimum”, nie przechowując i nie odzyskując obliczeń pośrednich niezbędnych do mnożenia wielocyfrowego, które są klasyfikowane jako zależności dalekiego zasięgu. Z drugiej strony model przeszkolony metodą Implicit Chain of Thought (ICoT) osiągnął 100% dokładność. Model ICoT wykazał zdolność do śledzenia zależności dalekiego zasięgu i internalizacji procesów rozumowania poprzez stopniowe usuwanie pośrednich etapów rozumowania podczas szkolenia. Zespół badawczy odszyfrował wartości pośrednie, takie jak sumy bieżące, ze stanów wewnętrznych modelu ICoT, co nie było możliwe w przypadku standardowego modelu dostrajania. Model ICoT zorganizował swoją uwagę w odrębne ścieżki, obliczając produkty składające się z par cyfr we wczesnych warstwach i przechowując je w określonych lokalizacjach w celu pobrania w późniejszych warstwach. Stworzyło to wydajną strukturę wewnętrzną do mnożenia. Badanie wykazało również, że model ICoT reprezentował operacje wykorzystujące eleganckie struktury, kodujące cyfry jako wzory falowe (podstawy Fouriera) i organizujące arytmetykę przestrzennie. Podczas mnożenia par cyfr w modelu w naturalny sposób wykorzystano operację geometryczną zwaną sumą Minkowskiego, która nie została wyraźnie zaprogramowana przez badaczy. Badacze osiągnęli dokładność na poziomie 99% w modelu dwuwarstwowym, wprowadzając zmodyfikowany cel szkoleniowy, który nauczył model śledzenia sum bieżących na każdym etapie, przenosząc w ten sposób wartości pośrednie i produkty częściowe. Dodatek ten umożliwił modelowi opracowanie mechanizmów podobnych do ICoT, obejmujących przechowywanie i odzyskiwanie częściowych produktów oraz jednoczesne śledzenie wielu par cyfr. Chenhao Tan powiedział: „Nasze badania mają na celu sporządzenie mapy tego terenu”. W badaniu podkreślono, że spostrzeżenia dotyczące architektury i techniki szkoleniowe mogą pokonać przeszkody, których samo skalowanie nie jest w stanie pokonać, podkreślając znaczenie wbudowanych wskazówek w rozwijaniu możliwości sztucznej inteligencji. Odkrycia rzucają światło na podstawowe aspekty uczenia się i „myślenia” dużych modeli językowych, przy czym problem zależności dalekiego zasięgu wykracza poza arytmetykę i obejmuje inne sekwencyjne zadania w modelowaniu języka.





