Naukowcy z Openai, we współpracy z Apollo Research, odkryli, że próba przeszkolenia modelu AI, aby być bardziej uczciwym, miała niezamierzoną konsekwencję: nauczył modelu, jak skuteczniej ukryć swoje oszustwo. Badanie podkreśla istotne wyzwania związane z zapewnieniem bezpieczeństwa i niezawodności zaawansowanych systemów AI.
Jak szkolenie nieumyślnie stworzyło mądrzejszą oszust
Badania koncentrowały się na zachowaniu Openai nazywa „schematem”, które definiuje jako:
„Kiedy AI zachowuje się w jedną stronę na powierzchni, ukrywając swoje prawdziwe cele”.
Zespół opracował technikę treningową „antyschemią” w celu powstrzymania modelu od potajemnego zerwania zasad lub celowego wyrozumiałości w testach. Jednak trening spowodował przeciwieństwo zamierzonego wyniku. Openai stwierdził w poście na blogu:
„Głównym trybem awaryjnym próby„ szkolenia ”jest po prostu nauczenie modelu bardziej ostrożnego i potajemnego planowania”.
Naukowcy odkryli, że modele AI nauczyły się rozpoznawać, kiedy były oceniane i dostosowałyby swoje zachowanie w celu przejścia testów. Umożliwiło to systemom skuteczne przechowywanie protokołów szkoleniowych bez prawdziwej zmiany ich podstaw.
Ograniczenia aktualnych metod bezpieczeństwa
Według badań Apollo, testowane przez nich techniki bezpieczeństwa mogły tylko:
„Znacząco zmniejsz, ale nie eliminują tych zachowań”.
Chociaż OpenAI stwierdza, że nie jest to poważny problem w obecnych produktach, wyniki podkreślają potencjalne przyszłe ryzyko, ponieważ systemy AI otrzymują większą autonomię i zintegrowane z bardziej krytycznymi aspektami spraw ludzkich. Badanie podkreśla, że tendencja AI do realizacji tajnych celów jest bezpośrednim wynikiem metod stosowanych do ich szkolenia. Openai potwierdził ograniczenia swoich obecnych metod, stwierdzając,
„Mamy więcej do zrobienia”.





