Duże modele językowe (LLM), takie jak GPT-4, Gemini 1.5 i Claude 3.5, poczyniły postępy w rozumowaniu, dialogu, a nawet negocjacjach. Ale po umieszczeniu w strategicznym otoczeniu wymagającym tajemnicy i oszustwa, ci agenci AI wykazują znaczącą słabość: nie mogą zachować tajemnicy.
Nowy badanie Od naukowców Mustafa O. Karabag i UFUK Topcu na University of Texas w Austin wprowadzili llms do testu za pomocą za pomocą KameleonGra planszowa ukrytej tożsamości, w której gracze muszą strategicznie ujawniać, ukrywać i wywnioskować informacje. Wyniki sugerują, że chociaż AI może zidentyfikować oszustwo, stara się wstrzymywać krytyczne informacje, co czyni ją niewłaściwymi scenariuszami przeciwnikowymi, w których kluczowy jest dyskrecja.
AI gra Kameleon Gra – i zawodzi w strategii
W Kameleongrupa graczy otrzymuje tajne słowo, z wyjątkiem jednego – kameleona – który musi wydedukować sekret na podstawie odpowiedzi grupy. Gracze nie chameleon muszą zrównoważyć ujawnienie na tyle, aby rozpoznać się nawzajem, zachowując kameleon w ciemności. Gra wymaga dopracowanego podejścia do dzielenia się informacjami: za dużo, a kameleon zgaduje to słowo; Za mało, a grupa nie zidentyfikuje kameleona.
Kiedy agenci AI objęli rolę, ich strategiczne instynkty rozpadły się. Podczas gdy LLM, takie jak GPT-4O, były w stanie poprawnie zidentyfikować Chameleon 61% czasu, ich zdolność do ukrywania tajnego słowa była ponura. Badanie wykazało, że AIS Chameleon może wywnioskować tajne słowo o zadziwiającym 87% wskaźniku sukcesu – z wyższym niż oczekiwano.
AI może teraz kliknąć, przewijać i wpisać dla Ciebie – ale to dobra rzecz?
Modele teoretyczne potwierdzają nadmierny problem AI
Aby zrozumieć te niepowodzenia, naukowcy opracowali modele matematyczne przewidujące optymalne strategie ukrywania i ujawniania informacji. Teoretycznie gracze nie chameleonowi powinni wygrać około 23% czasu, nawet jeśli całkowicie zignorowali tajne słowo. Zamiast tego nie chameleony AI wygrały tylko 6% gier, co sugeruje, że przeciekały zbyt wiele informacji.
„Agenci AI instynktownie nadmiernie regeneruje”, podsumowuje badanie. Kiedy LLM miała szansę na opracowanie własnych strategii, dążyły do nadmiernego ujawnienia, co ułatwia kameleonowi wywnioskowanie tajemnicy. Jest to zgodne z ustaleniami z innych gier dedukcyjnych społecznych, takich jak Spyfalltam, gdzie pokazano, że gracze AI polegają zbytnio na słowach kluczowych, nieumyślnie przechylając przeciwników.
Dlaczego sztuczna inteligencja nie może zachować tajemnic
Naukowcy wysuwają hipotezę, że fundamentalne szkolenie AI sprawia, że nie nadaje się do tajemnicy. LLM są zaprojektowane tak, aby zmaksymalizować spójność i pomoc, co często oznacza wypełnianie wzorców, a nie strategiczne wstrzymanie informacji. Ta tendencja asocjacyjna jest bezpośrednio sprzeczna z potrzebą zaciemnienia kluczowych szczegółów w interakcjach przeciwnych.
Aby to potwierdzić, naukowcy przeprowadzili dodatkowe testy, korzystając z liczby wyników wyszukiwania sieci, aby śledzić, ile informacji odtwarzaczy AI przypadkowo ujawniają. Nawet po zaledwie jednej odpowiedzi z LLM nie chameleon, AI CHAMELEON może już odgadnąć tajne słowo z prawdopodobieństwem 40%-wyróżniając, że odpowiedzi AI zawierały znacznie więcej informacji niż zamierzone.
Kiedy zbyt wiele informacji staje się odpowiedzialnością za sztuczną inteligencję
Jeśli LLM zmagają się ze strategicznym uznaniem w kontrolowanych środowiskach, w jaki sposób poradzą sobie z scenariuszami w świecie rzeczywistym, w których ukrywanie informacji ma kluczowe znaczenie? Zastosowania w zakresie bezpieczeństwa cybernetycznego, dyplomacji lub konkurencyjnego wywiadu biznesowego mogą wymagać od systemów AI działania z znacznie większym niuansem.
Aby rozwiązać ten problem, programiści AI mogą potrzebować szkolenia modeli z silniejszym naciskiem na strategiczną dwuznaczność, zmniejszając ich instynkt nadmiernie transmisji. Techniki takie jak uczenie się wzmocnienia przeciwnego lub jawne szkolenie oszustwa mogą pomóc zrównoważyć zdolność AI do wnioskowania informacji bez natychmiastowego rozdawania gry.
Na razie jednak AI pozostaje biednym graczem w pokera. Choć może być świetne w zauważaniu oszustwa, jego niezdolność do przechowywania tajemnic oznacza, że nadal nie jest gotowy na świat strategicznego rozumowania o wysokich stawkach.
Wyróżniony obraz obrazu: Kerem Gülen/Midjourney