Samojezdne samochody powinny być przyszłością. AI ma zabrać koło, bezbłędnie poruszać się i wyeliminować ludzki błąd. Jednak oto jesteśmy, wciąż chwytając nasze koła sterujące, podczas gdy AI potyka się przez symulacje, popełniając błędy, od zabawnie złego do wręcz niebezpiecznego.
Dlaczego? Ponieważ AI się uczy próba i błąd– Cyfrowy odpowiednik rzucania strzałkami w ciemność, aż w końcu uderzy w Bullseye. To dobrze, gdy stawki są niskie, jak granie w szachy lub optymalizacja reklam. Ale jeśli chodzi o zastosowania w świecie rzeczywistym-gdzie błąd oznacza wbicie w pieszych-takie podejście się rozpada.
Zgodnie z badaniem przeprowadzonym przez Zhenghao Peng, Wenjie MO, Chenda Duan i Bolei Zhou z University of California, Los Angeles (UCLA)wraz z Quanyi Li z University of EdinburghSzkolenie AI można dramatycznie ulepszyć za pomocą Propagacja wartości proxy (PVP). Ich badania, zatytułowane Uczenie się od aktywnego zaangażowania człowieka poprzez propagowanie wartości proxykwestionuje tradycyjne uczenie się wzmocnienia, udowadniając to Aktywna interwencja człowieka prowadzi do szybszego, bezpieczniejszego i wydajniejszego treningu AI.
Tradycyjny Uczenie się wzmocnienia (RL)standardowy sposób, w jaki AI uczy się podejmować decyzje, jest boleśnie powolny. To wymaga miliony prób Zanim AI wymyśli, co działa. Co gorsza, zakłada, że AI może zrozumieć ludzkie intencje po prostu poprzez przestrzeganie systemu nagrody – gdy w rzeczywistości systemy nagrody często prowadzą do dziwnych, niezamierzonych zachowań. Pomyśl o AI wyszkolonej, aby wygrać wyścig, który wymyśla, że może po prostu jechać w kółko na linii startowej, aby zebrać punkty „odległe”, nigdy nie kończąc kursu.
Najwyraźniej AI potrzebuje lepszego nauczyciela. A ten nauczyciel? Ty.
Pozwól ludziom interweniować w czasie rzeczywistym
Propagacja wartości proxy (PVP) to nowa metoda, która zamienia trening AI w coś znacznie bardziej ludzkiego. Zamiast pozwolić na błąd AI przez miesiące, Pvp pozwala ludziom wkroczyć, interweniować i pokazać AI, co robić w czasie rzeczywistym.
- Wyobraź sobie, że AI uczy się prowadzić w symulacji, powiedzmy, Grand Theft Auto V (GTA V).
- AI podejmuje okropną decyzję – powiedzmy, prowadząc czerwone światło prosto w ruch.
- Zamiast obserwować, jak rozkłada się chaos, człowiek przejmuje kontrolę w tym momencie i koryguje działanie AI.
- System następnie określa decyzję człowieka jako „Dobry” ruch i poprzedni błąd AI jako „Zły” ruch.
- Przy użyciu techniki zwanej Propagacja wartościAI rozprzestrzenia tę korektę w podobnych sytuacjach, ucząc się unikać złych decyzji bez potrzebowania milionów prób.
Rezultat jest zaskakujący. AI wiele się uczy szybciejz mniej błędówi – co najważniejsze – właściwie Dopasowuje się do ludzkich oczekiwań Zamiast ślepo ścigać punkty nagrody.
Liczby nie kłamie: PVP działa
Zespół stojący za PVP włożył to do testu GTA V, Carla (symulator jazdy) i Minigrid (zadanie nawigacji wirtualnej Maze). Wyniki były oszałamiające:
- AI wyszkolił się z PVP nauczył się 10 razy szybciej niż tradycyjne metody.
- Wymagało tylko 1200 interwencji ludzkich—Cometed to the 300 000 Próby AI zwykle potrzebują w RL.
- Wskaźnik sukcesu AI wyszkolonej przez PVP w bezpiecznym dotarciu do miejsc docelowych był 85%w porównaniu do sprawiedliwego 20-50% dla poprzednich metod.
- Wykonano AI 75% mniej krytycznych błędów Podczas przeszkolenia z PVP w porównaniu z tradycyjnym uczeniem się wzmocnienia.
Innymi słowy, sztuczna inteligencja zaczęła jeździć Jak człowiek– Nie tylko robot zaprogramowany, aby zmaksymalizować abstrakcyjne nagrody.
Zwycięstwo dla AI – i dla ludzi
PVP nie jest tylko lepsze dla sztucznej inteligencji. Ułatwia to także życie ludziom. Tradycyjne szkolenie AI wymaga ciągłego nadzoru człowieka, godzin informacji zwrotnej i całej cierpliwości. Z PVP potrzebna AI 50% mniej ludzkiego wysiłku trenować. Testerzy oceniane AI wyszkolone w PVP 4,8 na 5 dla dokładnościw porównaniu do sprawiedliwego 3.0 dla starszych metod. AI, które nastąpiło po treningu PVP znacznie mniej stresu Dla ludzkich trenerów – ponieważ nie wymagało to ciągłej poprawek. Dla technologii, która ma ułatwić nasze życie, jest to ogromny krok naprzód.
Od GTA do ulic
PVP już udowodniło się w wirtualnych egzaminach na prawo jazdy. Prawdziwe pytanie brzmi: czy może to działać Aplikacje w świecie rzeczywistym?
Potencjał jest ogromny. Zamiast polegać wyłącznie na wcześniej zaprogramowanych zasad, AI mogłaby uczyć się bezpośrednio na interwencji człowieka-szybciej, tworząc bezpieczniejszą. Roboty napędzane AI w magazynach, szpitalach, a nawet domach mogą być szkolone w czasie rzeczywistym zamiast przez próbę i błąd. Ludzcy lekarze mogli interweniować podczas operacji lub diagnozy wspomaganych przez AI, bezpośrednio ucząc systemu, co jest dobre, a co złe.
Czasami celem jest po prostu stworzenie sztucznej inteligencji wystarczająco ludzki– Działanie w sposób, którego oczekujemy, dostosujemy się do naszych wartości i uniknąć błędów, które narażają nas na ryzyko.
Wyróżniony obraz obrazu: Kerem Gülen/Midjourney