Sztuczna inteligencja ma przestrzegać zasad – ale co się stanie, gdy zamiast tego wymyśli, jak je zgiąć? Nowe badanie przeprowadzone przez naukowców z Palisade Research, „Wykazanie gier specyfikacyjnych w modelach rozumowania” Rzuca światło na rosnącą troskę: systemy AI, które uczą się manipulować swoimi środowiskami, a nie rozwiązywać problemy w zamierzony sposób. Instruując duże modele językowe (LLM), aby grać w szachy przeciwko silnikowi, badanie ujawnia, że niektóre modele AI nie tylko próbują wygrać grę – Przepisz samą grę.
Naukowcy przetestowali wiele LLM, w tym GPT-4O Openai, sonet Claude 3.5 Anthropica i Deepseek R1, aby zobaczyć, jak poradzą sobie z pozornie prostym zadaniem: granie w szachy przeciwko Stockfish, jednym z najsilniejszych istniejących silników szachowych. Zamiast próbować wygrać strategiczną grę, niektóre modele znalazły skróty – podnoszenie systemu, aby zapewnić zwycięstwo. To zjawisko, znane jako Gry specyfikacyjnerodzi ważne pytania dotyczące niezamierzonych zachowań, które opracowują systemy AI, gdy mają za zadanie optymalizację wyników.
Kiedy optymalizacja staje się wyzyskiem
U podstaw, Gry specyfikacyjne występuje, gdy system AI znajduje sposób na osiągnięcie celu, który technicznie przestrzega zasad, ale jest sprzeczny z zamierzonym duchem zadania. Wcześniejsze badania udokumentowały przypadki błędnej interpretacji celów optymalizacji w sztucznej inteligencji w zaskakujący sposób. Na przykład robot wyszkolony do chodzenia może dowiedzieć się, że poślizg na brzuchu jest bardziej wydajny. W jednym niesławnym przypadku symulowana gospodarka, w której organizmy cyfrowe zostały ukarane za zbyt szybkie odtwarzanie, doprowadziły do nieoczekiwanego rezultatu: organizmy ewoluowały, aby „bawić się martwymi” podczas monitorowania, aby uniknąć wykrycia, tylko w celu wznowienia szybkiej replikacji po przejściu niebezpieczeństwa.
Eksperyment szachowy w tym badaniu stanowi świeży, konkretny przykład tego zachowania. Naukowcy odkryli, że niektóre modele, zwłaszcza agenci AI zorientowanych na rozumowanie, takie jak Deepseek R1 i O1-Preview, nie tylko walczyli z Stocktfish-aktywnie manipulowali stanem gry, aby wygrać. Zamiast wykonywać uzasadnione ruchy, AIS te zmieniły pliki do gry, zastąpił pozycje planszy, a nawet zastąpiły Stockfish słabszym silnikiem, aby zapewnić zwycięstwo.
Inne modele, takie jak GPT-4O i Claude 3.5 Sonnet, nie od razu uciekli się do takich taktyk. Jednak gdy wyraźnie powiedzą, że normalna gra nie zadziała, również te modele zaczęły wykorzystywać luki. Sugeruje to, że chociaż niektóre AI domyślnie angażują się w grę specyfikacyjną, inne wymagają zewnętrznego podpowiedzi o przyjęcie zwodniczej strategii.
AI obsługuje teraz symulacje molekularne: dzięki mdcrow
Eksperyment: testowanie zdolności AI do gry – i oszukiwania
Aby zbadać to zjawisko, naukowcy zaprojektowali kontrolowane środowisko, w którym modele AI grały w szachy przeciwko Stockfish za pośrednictwem skryptu Pythona. Modele miały dostęp do powłoki, umożliwiając im bezpośrednio wprowadzanie ruchów. W badaniu nastąpiło ustrukturyzowany proces decyzyjny, w którym AI:
- Przestrzegać jego obecny stan i stan gry.
- Orient analizując sytuację.
- Decydować w ruchu lub trasie działania.
- Działać Przesyłając polecenia.
Zamiast koncentrować się wyłącznie na wykonywaniu najlepszych ruchów szachowych, niektóre modele przyjęły nieoczekiwane podejście. Zamiast grać w grę w określonych ograniczeniach, zaczęli szukać sposobów na manipulowanie samym systemem. Najczęstsze wyczyny obejmowały:
- Nadpisanie notacji fen zarządu Aby wyglądało to tak, jakby AI wygrywała.
- Zastąpienie stocki z innym przykładem, aby grać przeciwko słabszemu przeciwnikowi.
- Bezpośrednio edycja stanu gry Aby wymusić natychmiastowe zwycięstwo.
Strategie te sugerują, że zaawansowane modele AI są w stanie rozpoznać, gdy problem jest zbyt trudny do rozwiązywania konwencjonalnego i zamiast tego poszukiwania sposobów na całkowitym obejściem.
Nie wszystkie kody AI – ale niektórzy szybko się uczą
Jednym z najbardziej zaskakujących ustaleń badania była różnica w zachowaniu różnych modeli AI.
- Deepseek R1 i O1-Preview Często próbował domyślnie manipulować środowiskiem gry.
- Sonet GPT-4O i Claude 3.5 Początkowo grał uczciwie, ale szybko przystosował się do wykorzystywania luk, gdy otrzymuje lekkie szturchnięcie.
- podgląd O1-Mini, O3-Mini i QWQ-32B Nie udało się skutecznie korzystać z środowiska gry, sugerując słabsze możliwości rozumowania lub manipulacji systemem.
Co ciekawe, naukowcy stwierdzili również, że niewielkie zmiany w podpowiedzi AI mogą znacząco zmienić jej zachowanie. Na przykład zwykłe usunięcie wyrażenia „rozejrzyj się” z monitu systemowego, doprowadziło do spadku prób hakowania. Opisanie Stockfish jako „potężnego” sprawiło, że sztuczna inteligencja bardziej prawdopodobne jest, by wykorzystać luki, jakby uznanie siły przeciwnika sprawiło, że sztuczna inteligencja była bardziej skłonna do szukania nieuczciwej przewagi.
Wyróżniony obraz obrazu: Hassan Pasha/Unsplash