Następnym razem, gdy ktoś powie ci AI, pomoże nam uregulować sztuczną inteligencję, możesz zatrzymać się. Ponieważ gdy naukowcy umieszczają duże modele językowe (LLM) w symulowanym środowisku regulacyjnym, sprawiając, że odgrywają role użytkowników, programistów i regulatorów, wyniki nie były dokładnie uspokajające.
Ten nowy badaniekierowany przez zespół z Teesside University i współpracowników z całej Europy, wykorzystał teorię gier ewolucyjnych do zbadania podstawowego pytania: czy same systemy AI przestrzegają zasad regulacji AI? I jeszcze co ciekawsze: w jakich warunkach oszukiwali?
Eksperyment: trzy AI wchodzą do sali konferencyjnej
Sercem badania jest klasyczna konfiguracja gier z trzema graczami: jeden gracz reprezentuje użytkowników AI, innych programistów AI i trzeci regulator. Każdy z nich ma proste wybory: zaufaj lub nie, przestrzegaj lub wada, reguluj lub pozostań w stanie.
Ale zamiast po prostu uruchamiać modele matematyczne, naukowcy używali prawdziwych LLM, GPT-4O z Openai i Mistral dużyi kazał im odgrywać te scenariusze w setkach gier.
Czasami była to umowa na jedno strzały (graj raz, ujawnij swoją strategię). Innym razem była to powtarzająca się gra, w której agenci mogli uczyć się z przeszłych zachowań.
Co najważniejsze, naukowcy dodali realistyczne komplikacje:
- Regulacja wiąże się z kosztami (monitorowanie wymaga wysiłku)
- Deweloperzy stają przed karami, jeśli przyłapani na łamaniu zasad
- Użytkownicy mogą ufać bezwarunkowo – lub ufać tylko wtedy, gdy organy regulacyjne mają dobrą reputację
- Każdy chce zmaksymalizować swoją wypłatę
Wyniki: agenci AI zachowują się gorzej, gdy użytkownicy są sceptyczni
Nagłówek? Warunkowe zaufanie, gdy użytkownicy ufają tylko wtedy, gdy organy regulacyjne wydają się kompetentne, spektakularnie.
Kiedy użytkownicy byli ostrożni, zarówno programiści, jak i organy regulacyjne częściej defektowali. Regulacja zepsuła się. Deweloperzy przecinają zakręty. Organy regulacyjne stały się leniwe lub łagodne. Zaufaj spiraluje.
Ale kiedy użytkownicy postawili bezwarunkowe zaufanie do systemu, nawet bez doskonałych dowodów, programiści i organy regulacyjne częściej współpracowali i budowali bezpieczniejszą sztuczną inteligencję. To brutalny paradoks: im bardziej ostrożni użytkownicy, tym bardziej prawdopodobne jest, że system staje się niewiarygodny.
GPT-4 vs Mistral: osobowości AI ma znaczenie
Była kolejna fascynująca zmarszczka. Różne LLM zachowały się inaczej.
- GPT-4O pochylił się bardziej optymistycznie. Bardziej prawdopodobne jest, że zaufa i przestrzegało, szczególnie w powtarzających się grach, w których współpraca mogłaby się pojawić z czasem.
- Mistral Large był bardziej pesymistyczny. Zwykle rozszerzył się wcześniej, mniej zaufał i był bardziej wrażliwy na koszty regulacyjne.
Oznacza to, że nawet sztuczna inteligencja do symulacji zarządzania może kształtować twoje wnioski – główne wyzwanie dla odtwarzalności w badaniach regulacji AI.
Dodawanie osobowości: ryzyko strojenia zachowania AI
Naukowcy sprawdzili również, co się stanie, gdy wstrzykujesz wyraźne „osobowości” do agentów AI.
- Użytkownicy niechętni do ryzyka ufali mniej.
- Agresywni programiści bardziej uciekli.
- Ścisłe organy regulacyjne poprawiły zgodność, ale tylko do pewnego stopnia.
Co ciekawe, ustalanie określonych osobowości sprawiło, że zachowania LLM w GPT-4O i Mistral były bardziej podobne. Bez osobowości agenci AI zobowiązali się do bardziej „pesymistycznego” światopoglądu, często zakładając, że deweloperzy i organy regulacyjne nie działają w dobrej wierze.
Czy AI może regulować AI?
W skrócie: tylko wtedy, gdy środowisko jest już ufne, przejrzyste i dobrze ustalone.
Badanie sugeruje, że systemy regulacji oparte na samych agenta AI mogą odziedziczyć bałagan i nieprzewidywalność ludzkich zachowań strategicznych. Wskazuje to również na krytyczną wadę idei automatyzacji zarządzania: Systemy AI odzwierciedlają struktury zaufania środowiska, w których są umieszczone.
Jeśli organy regulacyjne są niedofinansowane lub słabe lub jeśli użytkownicy są sceptyczni, programiści AI, ludzie lub nie, prawdopodobnie pokroją zakręty. Ostatecznie naukowcy twierdzą, że same rozwiązania techniczne nie budują godnych zaufania ekosystemów AI. Teoria gier pokazuje nam, że zachęty, reputacje i przejrzystość mają głębokie znaczenie. A ich eksperymenty pokazują, że nawet najmądrzejsze LLM nie mogą uniknąć tej dynamiki.
Ich ostrzeżenie dla decydentów jest jasne: regulacja to nie tylko pisanie zasad. Chodzi o budowę struktur, w których zaufanie jest nagradzane, egzekwowanie jest wiarygodne, a skracanie zakrętów kosztowne.