Badacze z Goodfire.ai wyizolowali ścieżki zapamiętywania i rozumowania w sieciach neuronowych AI, co szczegółowo omówiono w przeddruku z końca października papier. Badania wykazują wyraźne rozdzielenie tych funkcji w ramach dużych modeli językowych. Kiedy usunięto ścieżki zapamiętywania, modele utraciły 97 procent zdolności do dosłownego recytowania danych treningowych. Jednakże ich zdolność do „logicznego rozumowania” pozostała w dużej mierze nienaruszona. Badacze uszeregowali komponenty wagowe od wysokiego do niskiego na podstawie „krzywizny”. W modelu języka OLMo-7B Allen Institute for AI warstwa 22 pokazała, że dolne 50 procent składników masy miało o 23 procent wyższą aktywację zapamiętanych danych. I odwrotnie, 10 procent najlepszych wykazało o 26 procent wyższą aktywację w przypadku ogólnego, niezapamiętanego tekstu. Ten mechanistyczny podział pozwolił na chirurgiczne usunięcie zapamiętywania przy jednoczesnym zachowaniu innych możliwości. Usunięcie elementów znajdujących się najniżej w rankingu wyeliminowało zapamiętywanie; utrzymanie tych z najwyższej półki zajmowało się rozwiązywaniem problemów. Wydaje się, że operacje arytmetyczne korzystają ze wspólnych ścieżek neuronowych z zapamiętywaniem, a nie z logicznym rozumowaniem. Usunięcie obwodów zapamiętujących spowodowało spadek wydajności matematycznej do 66 procent, podczas gdy zadania logiczne pozostały prawie niezmienione. To może wyjaśniać, dlaczego modele sztucznej inteligencji radzą sobie z matematyką bez zewnętrznych narzędzi, opierając się na zapamiętanych faktach, takich jak „2+2=4”, a nie na obliczeniach. „Rozumowanie” sztucznej inteligencji obejmuje umiejętności takie jak ocena zdań prawda/fałsz i przestrzeganie zasad „jeśli-to”, które przetrwały usunięcie pamięci. Różni się to od głębszego „wnioskowania matematycznego” potrzebnego do dowodów lub rozwiązywania nowatorskich problemów, z którym borykają się obecne modele sztucznej inteligencji, nawet przy nienaruszonych zdolnościach dopasowywania wzorców. Przyszły rozwój tych technik usuwania informacji mógłby umożliwić firmom zajmującym się sztuczną inteligencją usuwanie treści chronionych prawem autorskim, informacji prywatnych lub szkodliwego zapamiętanego tekstu z sieci neuronowych bez zakłócania wykonywania zadań transformacyjnych. Jednak badacze twierdzą, że ich metoda „nie może zagwarantować całkowitego wyeliminowania wrażliwych informacji” ze względu na rozproszony charakter przechowywania informacji w sieciach neuronowych. Zrozumienie tego rozróżnienia obejmuje „krajobraz strat”, wizualizację dokładności przewidywania modelu sztucznej inteligencji w oparciu o ustawienia wewnętrzne lub „wagi”. „Strata” mierzy błędy, przy czym niska strata wskazuje na niewielką liczbę błędów. „Krajobraz” odwzorowuje współczynniki błędów dla wszystkich możliwych kombinacji ustawień. Podczas treningu modele AI dostosowują ciężary, aby zminimalizować błędy, skutecznie „stając się” w tym krajobrazie. Naukowcy przeanalizowali „krzywiznę” krajobrazów strat, mierząc wrażliwość wydajności modelu na niewielkie zmiany wag sieci neuronowych. Wysoka krzywizna wskazuje na ostre szczyty i doliny, co oznacza, że małe zmiany mają znaczące skutki. Niska krzywizna oznacza płaskie równiny, na które zmiany mają minimalny wpływ. Te wartości krzywizny wykorzystano do uszeregowania składników ciężaru. Korzystając z metody K-FAC (przybliżona krzywizna oparta na współczynniku Kroneckera), naukowcy odkryli, że poszczególne zapamiętane fakty tworzą ostre, charakterystyczne skoki w krajobrazie, które po uśrednieniu spłaszczają się. Natomiast zdolności rozumowania, na których opiera się wiele różnych danych wejściowych, utrzymują spójne, umiarkowane krzywe. Badacze wskazują, że „kierunki wdrażające wspólne mechanizmy wykorzystywane przez wiele danych wejściowych sumują się spójnie i charakteryzują się średnio dużą krzywizną”, opisując ścieżki rozumowania. Zapamiętywanie, odwrotnie, wykorzystuje „specyficzne, ostre wskazówki powiązane z konkretnymi przykładami”, które po uśrednieniu wydają się płaskie. Technikę przetestowano na wielu systemach sztucznej inteligencji, w tym na rodzinie OLMo-2 Allen Institute (wersje o 7 miliardach i 1 miliardach parametrów) oraz na niestandardowych transformatorach wizyjnych o 86 milionach parametrów (modele ViT-Base) w serwisie ImageNet. Potwierdzili także ustalenia w porównaniu z istniejącymi metodami, takimi jak BalancedSubnet. Selektywne usunięcie komponentów o małej krzywiźnie spowodowało spadek zapamiętanej treści do 3,4% z prawie 100%. Zadania związane z logicznym rozumowaniem utrzymały od 95 do 106 procent podstawowej wydajności. Zadania logiczne obejmowały ocenę wyrażeń logicznych, łamigłówki dedukcji logicznej, śledzenie obiektów, BoolQ do wnioskowania tak/nie, Winogrande do wnioskowania zdroworozsądkowego i OpenBookQA do pytań naukowych. Operacje matematyczne i wyszukiwanie faktów w zamkniętej księdze, dzielenie się ścieżkami z zapamiętywaniem, po edycji spadły do 66–86 procent wydajności. Arytmetyka okazała się szczególnie krucha, a obliczenia kończyły się niepowodzeniem nawet przy identycznych łańcuchach rozumowania po usunięciu elementów o małej krzywiźnie. Zespół wyjaśnił: „Same problemy arytmetyczne są zapamiętywane w skali 7B lub dlatego, że wymagają wąsko stosowanych wskazówek do wykonania precyzyjnych obliczeń”. Udzielanie odpowiedzi na pytania w formie otwartej książki, w oparciu o podany kontekst, zapewniało niemal pełną wydajność. Separacja mechanizmów różniła się w zależności od rodzaju informacji; typowe fakty, takie jak stolice krajów, wykazały minimalne zmiany po edycji, podczas gdy rzadkie fakty, takie jak dyrektorzy generalni firm, spadły o 78 procent, co sugeruje zróżnicowaną alokację zasobów neuronowych w oparciu o częstotliwość informacji podczas szkoleń. Technika K-FAC przewyższała istniejące metody usuwania zapamiętywania, osiągając 16,1% zapamiętywania niewidocznych cytatów historycznych w porównaniu z 60% w przypadku BalancedSubnet. Transformatory wizyjne wykazały podobne wzorce, usuwając ścieżki zapamiętywania, przywracając 66,5% dokładności w przypadku wcześniej błędnie oznakowanych obrazów. Naukowcy uznają ograniczenia; usunięte wspomnienia mogą powrócić wraz z dalszym szkoleniem, ponieważ obecne metody oduczania przede wszystkim tłumią informacje. Przyczyna kruchości matematyki po usunięciu zapamiętywania jest niejasna, podobnie jak to, czy pewne złożone zdolności są błędnie identyfikowane jako zapamiętywanie. Ponadto narzędzia matematyczne do pomiaru „krajobrazu” modelu mogą być zawodne w skrajnych przypadkach.





