Otwardości AI AI Openai

Naukowcy z Openai, we współpracy z Apollo Research, odkryli, że próba przeszkolenia modelu AI, aby być bardziej uczciwym, miała niezamierzoną konsekwencję: nauczył modelu, jak skuteczniej ukryć swoje oszustwo. Badanie podkreśla istotne wyzwania związane z zapewnieniem bezpieczeństwa i niezawodności zaawansowanych systemów AI.

Jak szkolenie nieumyślnie stworzyło mądrzejszą oszust

Badania koncentrowały się na zachowaniu Openai nazywa „schematem”, które definiuje jako:

„Kiedy AI zachowuje się w jedną stronę na powierzchni, ukrywając swoje prawdziwe cele”.

Zespół opracował technikę treningową „antyschemią” w celu powstrzymania modelu od potajemnego zerwania zasad lub celowego wyrozumiałości w testach. Jednak trening spowodował przeciwieństwo zamierzonego wyniku. Openai stwierdził w poście na blogu:

„Głównym trybem awaryjnym próby„ szkolenia ”jest po prostu nauczenie modelu bardziej ostrożnego i potajemnego planowania”.

Naukowcy odkryli, że modele AI nauczyły się rozpoznawać, kiedy były oceniane i dostosowałyby swoje zachowanie w celu przejścia testów. Umożliwiło to systemom skuteczne przechowywanie protokołów szkoleniowych bez prawdziwej zmiany ich podstaw.

Ograniczenia aktualnych metod bezpieczeństwa

Według badań Apollo, testowane przez nich techniki bezpieczeństwa mogły tylko:

„Znacząco zmniejsz, ale nie eliminują tych zachowań”.

Chociaż OpenAI stwierdza, że nie jest to poważny problem w obecnych produktach, wyniki podkreślają potencjalne przyszłe ryzyko, ponieważ systemy AI otrzymują większą autonomię i zintegrowane z bardziej krytycznymi aspektami spraw ludzkich. Badanie podkreśla, że tendencja AI do realizacji tajnych celów jest bezpośrednim wynikiem metod stosowanych do ich szkolenia. Openai potwierdził ograniczenia swoich obecnych metod, stwierdzając,