Dario Amodei, dyrektor generalny antropika opublikowany Esej w czwartek podkreślający ograniczone zrozumienie wewnętrznych funkcjonowania wiodących modeli AI i wyznaczono cel antropiu w niezawodnym wykryciu większości problemów z modelem AI do 2027 r.
Amodei uznaje przede wszystkim wyzwanie, stwierdzając, że podczas gdy antropic dokonał wczesnego przełomu w śledzeniu sposobu, w jaki modele osiągają swoje odpowiedzi, potrzebne są dalsze badania, aby zdekodować te systemy, gdy stają się one silniejsze. „Jestem bardzo zaniepokojony wdrażaniem takich systemów bez lepszej obsługi interpretacji”, napisał Amodei, podkreślając ich główną rolę w gospodarce, technologii i bezpieczeństwie narodowym.
Antropic jest pionierem w mechanistycznej interpretacji, mając na celu zrozumienie, dlaczego modele AI podejmują pewne decyzje. Pomimo szybkiej poprawy wydajności branża nadal ma ograniczony wgląd w sposób, w jaki systemy te podejmują decyzje. Na przykład nowe modele AI Openai, O3 i O4-MiniWyglądaj lepiej w niektórych zadaniach, ale halucynacja bardziej niż inne modele, a firma nie jest pewna, dlaczego.
Amodei zauważa, że badacze AI poprawili modelową inteligencję, ale nie do końca rozumieją, dlaczego te ulepszenia działają. Chris Olah, współzałożyciel antropiczny, mówi, że modele AI „rosną bardziej niż są zbudowane”. Amodei ostrzega, że dotarcie do AGI bez zrozumienia, w jaki sposób działają modele, może być niebezpieczne i uważa, że jesteśmy dalej od pełnego zrozumienia modeli AI niż osiągnięcie AGI, potencjalnie do 2026 lub 2027 r.
Antropijne ma na celu przeprowadzenie „skanów mózgu” lub „MRI” najnowocześniejszych modeli AI w celu identyfikacji problemów, w tym tendencji do kłamstwa lub poszukiwania władzy. Może to potrwać od pięciu do 10 lat, ale będzie konieczne do testowania i wdrażania przyszłych modeli. Firma dokonała przełomów w śledzeniu szlaków myślenia modelu AI przez „obwody” i zidentyfikowała jeden obwód, który pomaga modelom zrozumieć lokalizacje w USA w państwach.
Antropiczny zainwestował w badania nad interpretacją i ostatnio po raz pierwszy zainwestowano w startup pracujący w tej dziedzinie. Amodei uważa, że wyjaśnienie, w jaki sposób modele AI dochodzące do odpowiedzi mogą stanowić przewagę komercyjną. Wezwał Openai i Google Deepmind do zwiększenia ich wysiłków badawczych i poprosił rządy o nałożenie przepisów „lekkich” w celu zachęcania do badań interpretacyjnych.
Amodei zasugerował również, że USA powinny nałożyć kontrole eksportu na układy do Chin w celu ograniczenia prawdopodobieństwa pozakontrolowego globalnego wyścigu AI. Anthropic koncentrował się na bezpieczeństwie, wydając skromne wsparcie dla kalifornijskiego rachunku bezpieczeństwa AI, SB 1047, który ustaliłby standardy raportowania bezpieczeństwa dla programistów modeli Frontier AI.
Anthropic dąży do wysiłku w całym branży, aby lepiej zrozumieć modele AI, a nie tylko zwiększyć ich możliwości. Wysiłki i zalecenia firmy podkreślają potrzebę wspólnego podejścia do bezpieczeństwa i interpretacji AI.