Naukowcy ostrzegają, że LLM mogą uzyskać "zgnilizna mózgu" zbyt

W nowym artykule przedpremierowym naukowcy z Uniwersytet Texas A&M, Uniwersytet Teksasu w Austin i Uniwersytet Purdue wprowadzili nową, niepokojącą koncepcję: „Hipoteza LLM zgnilizny mózgu”. The badanie stwierdza, że ciągłe wstępne szkolenie dużych modeli językowych (LLM) w oparciu o „śmieciowe teksty internetowe” powoduje trwały spadek ich zdolności poznawczych. . Ma to znaczenie, ponieważ nie jest to tylko tymczasowa usterka; badacze odkryli, że szkody mają charakter trwały, co sprawiło, że prosta czynność przechowywania danych stała się krytycznym problemem związanym z bezpieczeństwem w czasie szkolenia dla całego przyszłego rozwoju sztucznej inteligencji.

Jak spowodować „zgniliznę mózgu” AI

Termin „zgnilizna mózgu” został uznany przez Oksford za słowo roku 2024, opisując mentalną mgłę, jaką ludzie odczuwają w wyniku spożywania zbyt dużej ilości trywialnych treści w Internecie. Naukowcy postanowili sprawdzić, czy to samo dzieje się ze sztuczną inteligencją. Aby to zrobić, przeprowadzili kontrolowany eksperyment, wykorzystując ogromny zbiór prawdziwych postów na Twitterze/X. Stworzyli dwa odrębne zbiory danych: „śmieciowy” zbiór danych i „kontrolny” zbiór danych. Dane „śmieciowe” zdefiniowano na dwa różne sposoby:

M1 (stopień zaangażowania): Ten zbiór danych został wypełniony krótkimi, bardzo popularnymi postami (długość < 30 tokenów, popularność > 500). Naukowcy odkryli, że ten niesemantyczny wskaźnik – popularność – był zaskakująco silnym wskaźnikiem efektu gnicia mózgu, różniącym się od rzeczywistego znaczenia tekstu.
M2 (jakość semantyczna): Ten zbiór danych był wypełniony treściami, które sztuczna inteligencja (GPT-4o-mini) sklasyfikowała jako niskiej jakości, takimi jak „teorie spiskowe, przesadne twierdzenia, niepoparte twierdzeniami lub powierzchowne treści związane ze stylem życia”.

Następnie wzięli cztery różne LLM (w tym Llama3 8B i Qwen2.5 7B) i stale szkolili je na tych śmieciowych zbiorach danych, porównując ich wydajność z modelami wyszkolonymi na danych kontrolnych.

Spadek funkcji poznawczych jest prawdziwy

Wyniki były natychmiastowe i znaczące. Modele przeszkolone na danych śmieciowych wykazały a nietrywialny spadek funkcji poznawczych (g Hedgesa > 0,3) powszechny. Im więcej „śmieci” konsumowały modele, tym było gorzej, co wskazywało na wyraźny spadek zależności od dawki. Na przykład, gdy współczynnik śmieci w danych M1 wzrósł z 0% do 100%, jednym z powodów może być wynik testu porównawczego spadł z 74,9 do 57,2. Uszkodzenia nie dotyczyły tylko jednego obszaru. Naukowcy odkryli spadki w:

Rozumowanie: Modele utraciły zdolność rozwiązywania złożonych problemów.
Rozumienie w długim kontekście: Załamała się ich zdolność do wydobywania informacji z długich dokumentów.
Bezpieczeństwo: Modele stały się mniej zgodne z normami etycznymi.
Osobowość: Najbardziej niepokojące jest to, że w modelach rozwinęły się „ciemne cechy”, wykazujące znaczny wzrost psychopatia i narcyzm.

Kiedy badacze zagłębili się w Dlaczego coś takiego miało miejsce, zidentyfikowali podstawowy tryb awarii, który nazwali „przeskakiwanie myśli”. Modele sztucznej inteligencji w coraz większym stopniu skracałyby lub całkowicie pomijały łańcuchy rozumowania. Zamiast myśleć krok po kroku, po prostu przechodzili do (zwykle błędnej) odpowiedzi, naśladując krótki, przyciągający uwagę i bezrefleksyjny styl śmieciowych danych, którymi byli karmieni.

Czy zgniliznę można wyleczyć?

To najbardziej niepokojąca część badania: raczej nie. Naukowcy wypróbowali dwa różne sposoby „wyleczenia” modeli zepsutego mózgu i żaden nie był w pełni skuteczny.

1. Refleksja bez treningu: Próbowali skłonić modelki do „zastanowienia się” nad swoimi błędami i naprawienia ich. To się nie udało. „Zinternalizowany spadek funkcji poznawczych” modeli był tak głęboki, że nie byli oni w stanie nawet zidentyfikować własnych błędów w rozumowaniu.
2. Strojenie post-hoc: Próbowali „wymazać” złe szkolenie, ponownie szkoląc modele na ogromnej ilości czystych, wysokiej jakości danych instruktażowych. Chociaż to pomogło, nie mogło przywrócić pierwotnych możliwości modeli. Nawet po przeskalowaniu „czystych” danych do 4,8-krotność ilości niepotrzebnych danychpozostała duża różnica w wydajności.

Odkrycia dostarczają mocnych, przyczynowych dowodów na to, że jakość danych jest kluczowym czynnikiem wpływającym na możliwości i bezpieczeństwo sztucznej inteligencji. Uszkodzenia, gdy już zostaną wyrządzone, wydają się być głęboko zinternalizowane. Sugeruje to, że zwykłe przeszukiwanie Internetu w poszukiwaniu coraz większych zbiorów danych jest niebezpieczną ścieżką i uzasadnia potrzebę rutynowych „kontroli stanu funkcji poznawczych” modeli sztucznej inteligencji, aby one również nie padły ofiarą internetowego śmieciowego jedzenia.

Autor wyróżnionego obrazu