Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

AI uczy się prowadzić jak człowiek – obserwując, jak panikujesz

byKerem Gülen
6 lutego 2025
in Research
Home Research

Samojezdne samochody powinny być przyszłością. AI ma zabrać koło, bezbłędnie poruszać się i wyeliminować ludzki błąd. Jednak oto jesteśmy, wciąż chwytając nasze koła sterujące, podczas gdy AI potyka się przez symulacje, popełniając błędy, od zabawnie złego do wręcz niebezpiecznego.

Dlaczego? Ponieważ AI się uczy próba i błąd– Cyfrowy odpowiednik rzucania strzałkami w ciemność, aż w końcu uderzy w Bullseye. To dobrze, gdy stawki są niskie, jak granie w szachy lub optymalizacja reklam. Ale jeśli chodzi o zastosowania w świecie rzeczywistym-gdzie błąd oznacza wbicie w pieszych-takie podejście się rozpada.

Zgodnie z badaniem przeprowadzonym przez Zhenghao Peng, Wenjie MO, Chenda Duan i Bolei Zhou z University of California, Los Angeles (UCLA)wraz z Quanyi Li z University of EdinburghSzkolenie AI można dramatycznie ulepszyć za pomocą Propagacja wartości proxy (PVP). Ich badania, zatytułowane Uczenie się od aktywnego zaangażowania człowieka poprzez propagowanie wartości proxykwestionuje tradycyjne uczenie się wzmocnienia, udowadniając to Aktywna interwencja człowieka prowadzi do szybszego, bezpieczniejszego i wydajniejszego treningu AI.

Tradycyjny Uczenie się wzmocnienia (RL)standardowy sposób, w jaki AI uczy się podejmować decyzje, jest boleśnie powolny. To wymaga miliony prób Zanim AI wymyśli, co działa. Co gorsza, zakłada, że ​​AI może zrozumieć ludzkie intencje po prostu poprzez przestrzeganie systemu nagrody – gdy w rzeczywistości systemy nagrody często prowadzą do dziwnych, niezamierzonych zachowań. Pomyśl o AI wyszkolonej, aby wygrać wyścig, który wymyśla, że ​​może po prostu jechać w kółko na linii startowej, aby zebrać punkty „odległe”, nigdy nie kończąc kursu.

Najwyraźniej AI potrzebuje lepszego nauczyciela. A ten nauczyciel? Ty.

Pozwól ludziom interweniować w czasie rzeczywistym

Propagacja wartości proxy (PVP) to nowa metoda, która zamienia trening AI w coś znacznie bardziej ludzkiego. Zamiast pozwolić na błąd AI przez miesiące, Pvp pozwala ludziom wkroczyć, interweniować i pokazać AI, co robić w czasie rzeczywistym.

  • Wyobraź sobie, że AI uczy się prowadzić w symulacji, powiedzmy, Grand Theft Auto V (GTA V).
  • AI podejmuje okropną decyzję – powiedzmy, prowadząc czerwone światło prosto w ruch.
  • Zamiast obserwować, jak rozkłada się chaos, człowiek przejmuje kontrolę w tym momencie i koryguje działanie AI.
  • System następnie określa decyzję człowieka jako „Dobry” ruch i poprzedni błąd AI jako „Zły” ruch.
  • Przy użyciu techniki zwanej Propagacja wartościAI rozprzestrzenia tę korektę w podobnych sytuacjach, ucząc się unikać złych decyzji bez potrzebowania milionów prób.

Rezultat jest zaskakujący. AI wiele się uczy szybciejz mniej błędówi – co najważniejsze – właściwie Dopasowuje się do ludzkich oczekiwań Zamiast ślepo ścigać punkty nagrody.


AI zmaga się ze strategią: Badanie pokazuje, że LLMS ujawnia zbyt wiele w grach dedukcyjnych społecznych


Liczby nie kłamie: PVP działa

Zespół stojący za PVP włożył to do testu GTA V, Carla (symulator jazdy) i Minigrid (zadanie nawigacji wirtualnej Maze). Wyniki były oszałamiające:

  • AI wyszkolił się z PVP nauczył się 10 razy szybciej niż tradycyjne metody.
  • Wymagało tylko 1200 interwencji ludzkich—Cometed to the 300 000 Próby AI zwykle potrzebują w RL.
  • Wskaźnik sukcesu AI wyszkolonej przez PVP w bezpiecznym dotarciu do miejsc docelowych był 85%w porównaniu do sprawiedliwego 20-50% dla poprzednich metod.
  • Wykonano AI 75% mniej krytycznych błędów Podczas przeszkolenia z PVP w porównaniu z tradycyjnym uczeniem się wzmocnienia.

Innymi słowy, sztuczna inteligencja zaczęła jeździć Jak człowiek– Nie tylko robot zaprogramowany, aby zmaksymalizować abstrakcyjne nagrody.

Zwycięstwo dla AI – i dla ludzi

PVP nie jest tylko lepsze dla sztucznej inteligencji. Ułatwia to także życie ludziom. Tradycyjne szkolenie AI wymaga ciągłego nadzoru człowieka, godzin informacji zwrotnej i całej cierpliwości. Z PVP potrzebna AI 50% mniej ludzkiego wysiłku trenować. Testerzy oceniane AI wyszkolone w PVP 4,8 na 5 dla dokładnościw porównaniu do sprawiedliwego 3.0 dla starszych metod. AI, które nastąpiło po treningu PVP znacznie mniej stresu Dla ludzkich trenerów – ponieważ nie wymagało to ciągłej poprawek. Dla technologii, która ma ułatwić nasze życie, jest to ogromny krok naprzód.

Od GTA do ulic

PVP już udowodniło się w wirtualnych egzaminach na prawo jazdy. Prawdziwe pytanie brzmi: czy może to działać Aplikacje w świecie rzeczywistym?

Potencjał jest ogromny. Zamiast polegać wyłącznie na wcześniej zaprogramowanych zasad, AI mogłaby uczyć się bezpośrednio na interwencji człowieka-szybciej, tworząc bezpieczniejszą. Roboty napędzane AI w magazynach, szpitalach, a nawet domach mogą być szkolone w czasie rzeczywistym zamiast przez próbę i błąd. Ludzcy lekarze mogli interweniować podczas operacji lub diagnozy wspomaganych przez AI, bezpośrednio ucząc systemu, co jest dobre, a co złe.

Czasami celem jest po prostu stworzenie sztucznej inteligencji wystarczająco ludzki– Działanie w sposób, którego oczekujemy, dostosujemy się do naszych wartości i uniknąć błędów, które narażają nas na ryzyko.


Wyróżniony obraz obrazu: Kerem Gülen/Midjourney

Tags: AiWyróżniony

Related Posts

Narzędzia badawcze AI mogą powodować więcej problemów niż rozwiązują

Narzędzia badawcze AI mogą powodować więcej problemów niż rozwiązują

14 maja 2025
Czy twój bardzo pomocny partner generatywny AI potajemnie sprawia, że ​​twoja praca jest nudna?

Czy twój bardzo pomocny partner generatywny AI potajemnie sprawia, że ​​twoja praca jest nudna?

14 maja 2025
Adele Microsoft chce nadać twojej sztucznej inteligencji profilu poznawczego

Adele Microsoft chce nadać twojej sztucznej inteligencji profilu poznawczego

14 maja 2025
Apple Research Paper zaprezentuje Matrix3D do generowania treści 3D

Apple Research Paper zaprezentuje Matrix3D do generowania treści 3D

14 maja 2025
Badania: Złoty standard oceny Genai

Badania: Złoty standard oceny Genai

12 maja 2025
AI w końcu rozwiązuje najtrudniejszą zagadkę biologii

AI w końcu rozwiązuje najtrudniejszą zagadkę biologii

6 maja 2025

Recent Posts

  • Wpływ inteligentnych tkanin na taktyczną wydajność odzieży
  • Databricks obstawia duże na serwerze Postgres z przejęciem neonów w wysokości 1 miliarda dolarów
  • Alphaevolve: Jak nowa sztuczna inteligencja Google dąży do prawdy z samokonmitowaniem
  • Tiktok wdraża teksty AlT generowane przez AI, aby uzyskać lepszą dostępność
  • Trump zmusza Apple do przemyślenia swojej strategii iPhone’a w Indiach

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.