Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Jak AI może się monitorować: nowe podejście do skalowalnego nadzoru

byKerem Gülen
10 lutego 2025
in Research
Home Research

W miarę jak systemy AI rosną, tradycyjne metody nadzoru – takie jak Nadzorowane dostrajanie (SFT) i uczenie się wzmocnienia z ludzkich informacji zwrotnych (RLHF)– stać się niezrównoważonym. Techniki te zależą od oceny człowieka, ale gdy AI zaczyna przewyższać ludzi w złożonych zadaniach, bezpośredni nadzór staje się niemożliwy.

Badanie zatytułowane „Skalowalne nadzór nad nadludzką sztuczną inteligencją poprzez rekurencyjne samokrytujące”, Autor przez Xueru Wen, Jie Lou, Xinyu Lu, Junjie Yang, Yanjiang Liu, Yaojie Lu, Debing Zhang i Xingyubada nowe podejście: pozwalając AI Oceń się poprzez rekuryczne samokrytywanie. Ta metoda sugeruje, że zamiast polegać na bezpośredniej ocenie człowieka, systemy AI mogą krytykować własne wyniki, udoskonalając decyzje za pomocą wielu warstw informacji zwrotnej.

Problem: AI staje się zbyt złożona dla ludzkiego nadzoru

Wyrównanie AI – proces upewnienia się, że systemy AI zachowują się w sposób zgodny z wartościami ludzkimi sygnały nadzoru. Tradycyjnie sygnały te pochodzą z ocen ludzkich, ale ta metoda nie udaje się, gdy AI działa poza ludzkim zrozumieniem.

Na przykład:

  • Matematyka i nauka: AI może rozwiązywać złożone dowody szybciej niż ludzie, co czyni bezpośrednią ocenę.
  • Recenzja treści o długiej formie: Ludzie starają się skutecznie ocenić ogromne ilości tekstu generowanego przez AI.
  • Strategiczne podejmowanie decyzji: Strategie biznesowe lub polityczne generowane przez AI mogą obejmować czynniki zbyt złożone, aby ludzie mogli skutecznie oceniać.

To stanowi poważny problem z nadzorem. Jeśli ludzie nie mogą wiarygodnie ocenić treści generowanych przez AI, w jaki sposób możemy zapewnić, że AI pozostaje bezpieczna i dostosowana do ludzkich celów?

Hipoteza: AI może krytykować własne krytyki

Badanie bada dwie kluczowe hipotezy:

  1. Krytyka krytyki jest łatwiejsza niż sama krytyka -Rozszerza to znaną zasadę, że weryfikacja jest łatwiejsza niż generowanie. Tak jak sprawdzenie odpowiedzi jest często prostsze niż rozwiązanie problemu, ocena krytyki jest często łatwiejsza niż produkcja jednego od zera.
  2. Ten trudność utrzymuje się rekurencyjnie – Jeśli ocena krytyki jest łatwiejsza niż generowanie jej, wówczas ocena krytyki krytyki powinna być jeszcze łatwiejsza i tak dalej. Sugeruje to, że gdy ocena człowieka jest niemożliwa, AI może być nadal nadzorowane Krytyki wyższego rzędu.

To lustra Struktury decyzyjne organizacyjnegdzie menedżerowie sprawdzają oceny swoich podwładnych, a nie bezpośrednio oceniają złożone szczegóły.

Testowanie teorii: ludzkie, AI i rekurencyjne eksperymenty nadzoru

Aby potwierdzić te hipotezy, naukowcy przeprowadzili serię eksperymentów obejmujących różne poziomy nadzoru. Najpierw przetestowali Nadzór ludzki-człowiekgdzie ludzie zostali poproszeni o ocenę odpowiedzi generowanych przez AI, a następnie krytykę poprzednich krytyków. Ten eksperyment miał na celu ustalenie, czy ocena krytyki była łatwiejsza niż ocena pierwotnej odpowiedzi. Następnie przedstawili Nadzór ludzka-AIgdzie ludzie byli odpowiedzialni za nadzorowanie krytyków generowanych przez AI, a nie bezpośrednią ocenę wyników AI. To podejście sprawdzono, czy rekurencyjne samokrytykowanie może nadal pozwolić ludziom skutecznie nadzorować decyzje AI. Na koniec badano badanie Nadzór AI-AIgdy systemy AI oceniły własne wyniki poprzez wiele warstw samokrytyki, aby ocenić, czy AI może autonomicznie udoskonalić swoje decyzje bez interwencji człowieka.


Jak inspirowana fizyka AI sprawia, że ​​nasze drogi są bezpieczniejsze


Kluczowe ustalenia

. Eksperymenty ludzkie-ludzkie potwierdził, że przegląd krytyki był łatwiejszy niż bezpośrednio ocena odpowiedzi. Krytyki wyższego rzędu doprowadziły do ​​zwiększonej dokładności przy jednoczesnym wymaganiu mniejszego wysiłku, co pokazuje, że rekurencyjny nadzór może uprościć złożone zadania oceny. . Eksperymenty człowieka-AI Wykazał, że nawet w przypadkach, w których sztuczna inteligencja przewyższała ludzi w generowaniu treści, ludzie mogą nadal zapewnić znaczący nadzór, oceniając krytyki generowane przez AI, a nie surowe wyniki. Wreszcie Eksperymenty AI-AI wykazali, że chociaż modele AI mogły krytykować własne wyniki, ich zdolność do wykonywania samokrytykowania rekurencyjnego była nadal ograniczona. Obecne systemy AI starają się konsekwentnie ulepszać poprzez wiele warstw samokrytyki, podkreślając potrzebę dalszych postępów w wyrównaniu AI.

Jak działa rekurencyjne samokrytyzacja

Naukowcy sformalizowali hierarchiczną strukturę krytyki, która pozwoliła systemom AI ocenić własne wyniki na wielu poziomach. Na Poziom odpowiedziAI generuje początkową odpowiedź. Następnie w Krytyka pierwszego rzędu (C1) Etap, AI dokonuje przeglądu własnej reakcji, identyfikując błędy lub słabości. . Krytyka drugiego rzędu (C2) Postępuje to dalej, oceniając wiele krytyków pierwszego rzędu w celu ustalenia, które krytyki zapewniają najbardziej ważne spostrzeżenia. Na Krytyka wyższego rzędu (C3+) Poziom AI nadal rafinacja krytyków rekurencyjnie, poprawiając dokładność z każdą warstwą samooceny.

Badanie wprowadziło również dwa Metody porównawcze wyjściowych Aby ocenić skuteczność krytyki rekurencyjnej. Głosowanie większości Zagregowane wiele krytyków, aby sprawdzić, czy konsensus poprawił dokładność, a Naiwne głosowanie Po prostu policz wcześniejsze osądy bez dodawania nowej analizy. Odkrycia wykazały, że krytyki rekurencyjne konsekwentnie przewyższały prostą agregację głosów, dowodzi, że ta metoda generuje znaczące spostrzeżenia, a nie tylko uśrednianie opinii.

Czy rekurencyjne samokrytykowanie może rozwiązać nadzór AI?

Badanie sugeruje Nadzór rekurencyjny może być przełomem dla skalowalnego monitorowania AIale wyzwania pozostają:

SDługości:

  • Pozwala ludziom nadzorować sztuczną inteligencję bez konieczności oceny złożonych surowych wyników.
  • Sprawia, że ​​wyrównanie AI jest bardziej skalowalne poprzez zmniejszenie zależności od bezpośredniej interwencji człowieka.
  • Zapewnia ustrukturyzowane mechanizmy nadzoru, podobnie jak hierarchiczne podejmowanie decyzji w organizacjach.

Ograniczenia:

  • Obecne modele AI zmagają się z samokrytyki ponad kilka poziomów.
  • Rekurencyjny nadzór nie eliminuje Ryzyko hakowania nagród – gdzie AI optymalizuje cele proxy, a nie prawdziwe ludzkie intencje.
  • Konieczne są dalsze badania, aby zapewnić, że modele samokrytujące Nie wzmacniaj własnych uprzedzeń Zamiast poprawić.

Jeśli zostanie ulepszony, Rekurencyjne samokrytykowanie może przekształcić nadzór AIumożliwiając monitorowanie nadludzkie systemy AI bez bezpośredniej oceny człowieka.

Potencjalne aplikacje obejmują:

  • Walidacja badań napędzanych przez AI -Zapewnienie dokładnych dowodów naukowych generowanych przez AI.
  • Zautomatyzowana analiza polityki – Wykorzystanie sztucznej inteligencji do oceny strategii biznesowych lub rządowych.
  • Advanced Medical AI -Sprawdzanie schronisk z uwięzionymi przez AI poprzez wielowarstwowe krytyki.

Wyniki badania sugerują, że podczas gdy Obecne modele AI nadal zmagają się z krytyką wyższego rzęduW Rekurencyjne samokrytykowanie oferuje obiecujący kierunek w celu utrzymania wyrównania AI jako systemów nadal przewyższają ludzką inteligencję.


Wyróżniony obraz obrazu: Kerem Gülen/Ideogram

Tags: AiSztuczna inteligencjaWyróżniony

Related Posts

Narzędzia badawcze AI mogą powodować więcej problemów niż rozwiązują

Narzędzia badawcze AI mogą powodować więcej problemów niż rozwiązują

14 maja 2025
Czy twój bardzo pomocny partner generatywny AI potajemnie sprawia, że ​​twoja praca jest nudna?

Czy twój bardzo pomocny partner generatywny AI potajemnie sprawia, że ​​twoja praca jest nudna?

14 maja 2025
Adele Microsoft chce nadać twojej sztucznej inteligencji profilu poznawczego

Adele Microsoft chce nadać twojej sztucznej inteligencji profilu poznawczego

14 maja 2025
Apple Research Paper zaprezentuje Matrix3D do generowania treści 3D

Apple Research Paper zaprezentuje Matrix3D do generowania treści 3D

14 maja 2025
Badania: Złoty standard oceny Genai

Badania: Złoty standard oceny Genai

12 maja 2025
AI w końcu rozwiązuje najtrudniejszą zagadkę biologii

AI w końcu rozwiązuje najtrudniejszą zagadkę biologii

6 maja 2025

Recent Posts

  • Wpływ inteligentnych tkanin na taktyczną wydajność odzieży
  • Databricks obstawia duże na serwerze Postgres z przejęciem neonów w wysokości 1 miliarda dolarów
  • Alphaevolve: Jak nowa sztuczna inteligencja Google dąży do prawdy z samokonmitowaniem
  • Tiktok wdraża teksty AlT generowane przez AI, aby uzyskać lepszą dostępność
  • Trump zmusza Apple do przemyślenia swojej strategii iPhone’a w Indiach

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.