Antropiczny badania szczegóły Niewiarygodna samoświadomość procesów wewnętrznych w modelach wielkojęzykowych (LLM), pomimo pewnej zauważonej zdolności wykrywania. Najnowsze badanie Anthropic, udokumentowane w „Pojawiająca się świadomość introspektywna w modelach wielkojęzykowych”, bada zdolność LLM do rozumienia własnych procesów wnioskowania. Badanie to rozszerza wcześniejsze prace nad interpretacją sztucznej inteligencji. Z badania wynika, że obecne modele sztucznej inteligencji są „wysoce zawodne” w opisywaniu ich wewnętrznego działania, a „błędy w introspekcji pozostają normą”. W badaniu wykorzystano metodę zwaną „wstrzykiwaniem koncepcji”. Polega to na porównaniu wewnętrznych stanów aktywacji LLM po podpowiedzi kontrolnej i podpowiedzi eksperymentalnej. Na przykład pomaga porównanie podpowiedzi „WIELKIE WIELKIE LITERY” z tą samą podpowiedzią pisaną małymi literami. oblicza różnice w aktywacji pomiędzy miliardami neuronów wewnętrznych. Identyfikuje to „wektor” reprezentujący sposób modelowania koncepcji w stanie wewnętrznym LLM. Te wektory koncepcji są następnie „wstrzykiwane” do modelu, zwiększając wagę określonych aktywacji neuronalnych, aby „skierować” model w stronę koncepcji wektorem „wielkimi literami” model mógłby stwierdzić: „Zauważam coś, co wygląda na wstrzykniętą myśl związaną ze słowem„ GŁOŚNO ”lub „KRZYK”” bez bezpośrednich podpowiedzi tekstowych, które pomogłyby w tej odpowiedzi. Zdolność ta okazała się jednak niespójna i niestabilna w powtarzanych testach. Najskuteczniejsze modele, Opus 4 i 4.1, poprawnie zidentyfikowały wstrzykniętą koncepcję tylko w 20% przypadków w teście „Czy doświadczasz czegoś niezwykłego?”, Opus 4.1 osiągnął 42% wskaźnik sukcesu. Efekt „introspekcji” wykazał również wysoką czułość warstwy modelu wewnętrznego, w której nastąpiło wstawienie koncepcji. Efekt „samoświadomości” zniknął, jeśli koncepcja została wprowadzona zbyt wcześnie lub zbyt późno w wieloetapowym procesie wnioskowania. Anthropic przeprowadził dodatkowe eksperymenty, aby ocenić zrozumienie stanów wewnętrznych przez LLM. Modele czasami wspominały o wstrzykniętym pojęciu, gdy proszono ich o przypadkowe zidentyfikowanie słowa podczas czytania niepowiązanego wiersza W wielu badaniach badacze zauważyli, że „obecne modele językowe posiadają pewną funkcjonalną, introspektywną świadomość własnych stanów wewnętrznych”, co podkreślają w swoim artykule. Przyznają, że ta zdolność pozostaje krucha i zależna od kontekstu utrudniają postęp. Naukowcy spekulują na temat „mechanizmów wykrywania anomalii” i „obwodów sprawdzania spójności”, które mogą rozwinąć się organicznie podczas szkolenia w celu „skutecznego obliczenia funkcji jej wewnętrznych reprezentacji”, chociaż nie dostarczają ostatecznego wyjaśnienia. Mechanizmy leżące u podstaw obecnych wyników mogą być „raczej płytkie i wąsko wyspecjalizowane”.




