W miarę jak systemy AI rosną, tradycyjne metody nadzoru – takie jak Nadzorowane dostrajanie (SFT) i uczenie się wzmocnienia z ludzkich informacji zwrotnych (RLHF)– stać się niezrównoważonym. Techniki te zależą od oceny człowieka, ale gdy AI zaczyna przewyższać ludzi w złożonych zadaniach, bezpośredni nadzór staje się niemożliwy.
Badanie zatytułowane „Skalowalne nadzór nad nadludzką sztuczną inteligencją poprzez rekurencyjne samokrytujące”, Autor przez Xueru Wen, Jie Lou, Xinyu Lu, Junjie Yang, Yanjiang Liu, Yaojie Lu, Debing Zhang i Xingyubada nowe podejście: pozwalając AI Oceń się poprzez rekuryczne samokrytywanie. Ta metoda sugeruje, że zamiast polegać na bezpośredniej ocenie człowieka, systemy AI mogą krytykować własne wyniki, udoskonalając decyzje za pomocą wielu warstw informacji zwrotnej.
Problem: AI staje się zbyt złożona dla ludzkiego nadzoru
Wyrównanie AI – proces upewnienia się, że systemy AI zachowują się w sposób zgodny z wartościami ludzkimi sygnały nadzoru. Tradycyjnie sygnały te pochodzą z ocen ludzkich, ale ta metoda nie udaje się, gdy AI działa poza ludzkim zrozumieniem.
Na przykład:
- Matematyka i nauka: AI może rozwiązywać złożone dowody szybciej niż ludzie, co czyni bezpośrednią ocenę.
- Recenzja treści o długiej formie: Ludzie starają się skutecznie ocenić ogromne ilości tekstu generowanego przez AI.
- Strategiczne podejmowanie decyzji: Strategie biznesowe lub polityczne generowane przez AI mogą obejmować czynniki zbyt złożone, aby ludzie mogli skutecznie oceniać.
To stanowi poważny problem z nadzorem. Jeśli ludzie nie mogą wiarygodnie ocenić treści generowanych przez AI, w jaki sposób możemy zapewnić, że AI pozostaje bezpieczna i dostosowana do ludzkich celów?
Hipoteza: AI może krytykować własne krytyki
Badanie bada dwie kluczowe hipotezy:
- Krytyka krytyki jest łatwiejsza niż sama krytyka -Rozszerza to znaną zasadę, że weryfikacja jest łatwiejsza niż generowanie. Tak jak sprawdzenie odpowiedzi jest często prostsze niż rozwiązanie problemu, ocena krytyki jest często łatwiejsza niż produkcja jednego od zera.
- Ten trudność utrzymuje się rekurencyjnie – Jeśli ocena krytyki jest łatwiejsza niż generowanie jej, wówczas ocena krytyki krytyki powinna być jeszcze łatwiejsza i tak dalej. Sugeruje to, że gdy ocena człowieka jest niemożliwa, AI może być nadal nadzorowane Krytyki wyższego rzędu.
To lustra Struktury decyzyjne organizacyjnegdzie menedżerowie sprawdzają oceny swoich podwładnych, a nie bezpośrednio oceniają złożone szczegóły.
Testowanie teorii: ludzkie, AI i rekurencyjne eksperymenty nadzoru
Aby potwierdzić te hipotezy, naukowcy przeprowadzili serię eksperymentów obejmujących różne poziomy nadzoru. Najpierw przetestowali Nadzór ludzki-człowiekgdzie ludzie zostali poproszeni o ocenę odpowiedzi generowanych przez AI, a następnie krytykę poprzednich krytyków. Ten eksperyment miał na celu ustalenie, czy ocena krytyki była łatwiejsza niż ocena pierwotnej odpowiedzi. Następnie przedstawili Nadzór ludzka-AIgdzie ludzie byli odpowiedzialni za nadzorowanie krytyków generowanych przez AI, a nie bezpośrednią ocenę wyników AI. To podejście sprawdzono, czy rekurencyjne samokrytykowanie może nadal pozwolić ludziom skutecznie nadzorować decyzje AI. Na koniec badano badanie Nadzór AI-AIgdy systemy AI oceniły własne wyniki poprzez wiele warstw samokrytyki, aby ocenić, czy AI może autonomicznie udoskonalić swoje decyzje bez interwencji człowieka.
Jak inspirowana fizyka AI sprawia, że nasze drogi są bezpieczniejsze
Kluczowe ustalenia
. Eksperymenty ludzkie-ludzkie potwierdził, że przegląd krytyki był łatwiejszy niż bezpośrednio ocena odpowiedzi. Krytyki wyższego rzędu doprowadziły do zwiększonej dokładności przy jednoczesnym wymaganiu mniejszego wysiłku, co pokazuje, że rekurencyjny nadzór może uprościć złożone zadania oceny. . Eksperymenty człowieka-AI Wykazał, że nawet w przypadkach, w których sztuczna inteligencja przewyższała ludzi w generowaniu treści, ludzie mogą nadal zapewnić znaczący nadzór, oceniając krytyki generowane przez AI, a nie surowe wyniki. Wreszcie Eksperymenty AI-AI wykazali, że chociaż modele AI mogły krytykować własne wyniki, ich zdolność do wykonywania samokrytykowania rekurencyjnego była nadal ograniczona. Obecne systemy AI starają się konsekwentnie ulepszać poprzez wiele warstw samokrytyki, podkreślając potrzebę dalszych postępów w wyrównaniu AI.
Jak działa rekurencyjne samokrytyzacja
Naukowcy sformalizowali hierarchiczną strukturę krytyki, która pozwoliła systemom AI ocenić własne wyniki na wielu poziomach. Na Poziom odpowiedziAI generuje początkową odpowiedź. Następnie w Krytyka pierwszego rzędu (C1) Etap, AI dokonuje przeglądu własnej reakcji, identyfikując błędy lub słabości. . Krytyka drugiego rzędu (C2) Postępuje to dalej, oceniając wiele krytyków pierwszego rzędu w celu ustalenia, które krytyki zapewniają najbardziej ważne spostrzeżenia. Na Krytyka wyższego rzędu (C3+) Poziom AI nadal rafinacja krytyków rekurencyjnie, poprawiając dokładność z każdą warstwą samooceny.
Badanie wprowadziło również dwa Metody porównawcze wyjściowych Aby ocenić skuteczność krytyki rekurencyjnej. Głosowanie większości Zagregowane wiele krytyków, aby sprawdzić, czy konsensus poprawił dokładność, a Naiwne głosowanie Po prostu policz wcześniejsze osądy bez dodawania nowej analizy. Odkrycia wykazały, że krytyki rekurencyjne konsekwentnie przewyższały prostą agregację głosów, dowodzi, że ta metoda generuje znaczące spostrzeżenia, a nie tylko uśrednianie opinii.
Czy rekurencyjne samokrytykowanie może rozwiązać nadzór AI?
Badanie sugeruje Nadzór rekurencyjny może być przełomem dla skalowalnego monitorowania AIale wyzwania pozostają:
SDługości:
- Pozwala ludziom nadzorować sztuczną inteligencję bez konieczności oceny złożonych surowych wyników.
- Sprawia, że wyrównanie AI jest bardziej skalowalne poprzez zmniejszenie zależności od bezpośredniej interwencji człowieka.
- Zapewnia ustrukturyzowane mechanizmy nadzoru, podobnie jak hierarchiczne podejmowanie decyzji w organizacjach.
Ograniczenia:
- Obecne modele AI zmagają się z samokrytyki ponad kilka poziomów.
- Rekurencyjny nadzór nie eliminuje Ryzyko hakowania nagród – gdzie AI optymalizuje cele proxy, a nie prawdziwe ludzkie intencje.
- Konieczne są dalsze badania, aby zapewnić, że modele samokrytujące Nie wzmacniaj własnych uprzedzeń Zamiast poprawić.
Jeśli zostanie ulepszony, Rekurencyjne samokrytykowanie może przekształcić nadzór AIumożliwiając monitorowanie nadludzkie systemy AI bez bezpośredniej oceny człowieka.
Potencjalne aplikacje obejmują:
- Walidacja badań napędzanych przez AI -Zapewnienie dokładnych dowodów naukowych generowanych przez AI.
- Zautomatyzowana analiza polityki – Wykorzystanie sztucznej inteligencji do oceny strategii biznesowych lub rządowych.
- Advanced Medical AI -Sprawdzanie schronisk z uwięzionymi przez AI poprzez wielowarstwowe krytyki.
Wyniki badania sugerują, że podczas gdy Obecne modele AI nadal zmagają się z krytyką wyższego rzęduW Rekurencyjne samokrytykowanie oferuje obiecujący kierunek w celu utrzymania wyrównania AI jako systemów nadal przewyższają ludzką inteligencję.
Wyróżniony obraz obrazu: Kerem Gülen/Ideogram