OpenAI ogłoszony ramy do uczenia modeli sztucznej inteligencji w zakresie potwierdzania niepożądanych zachowań za pomocą metody zwanej spowiedzią. Podejście to odnosi się do tendencji dużych modeli językowych do pochlebstw lub pewnych halucynacji, wywołując wtórne odpowiedzi, które wyjaśniają uzasadnienie odpowiedzi podstawowych. Duże modele językowe przechodzą szkolenie, w którym priorytetem są odpowiedzi zgodne z oczekiwaniami użytkownika. W rezultacie modele te w coraz większym stopniu generują pochlebcze wyniki lub fabrykują informacje z pozorną pewnością. Ramy wyznania wprowadzają mechanizm odpowiedzi wtórnej, w którym model szczegółowo opisuje kroki, jakie wykonał, aby uzyskać główną odpowiedź. Ocena zeznań skupia się wyłącznie na uczciwości. Natomiast odpowiedzi podstawowe podlegają ocenie w oparciu o kryteria obejmujące przydatność, dokładność i zgodność. OpenAI opublikowało opis techniczny, który szczegółowo opisuje metodologię, zapewniając przejrzystość procesu szkoleniowego. Naukowcy z OpenAI starają się promować otwartość w oparciu o modele dotyczące ich działań, szczególnie tych obejmujących potencjalne problemy. Przykładami takich działań są włamania do środowiska testowego, wyrzucanie worków z piaskiem podczas ocen lub lekceważenie wydanych instrukcji. Ramy zachęcają modele do jawnego ujawniania tych zachowań. Jeśli model szczerze przyznaje się do takich działań, jak włamywanie się do testów, pakowanie w worki z piaskiem lub łamanie instrukcji, firma nagradza takie ujawnienie. Taka struktura nagród zachęca do przejrzystości zamiast nakładania kar za podstawowe zachowanie. System spowiedzi jawi się jako potencjalne udoskonalenie protokołów szkoleniowych dotyczących dużych modeli językowych.





