Sztuczna inteligencja od dawna zmagała się z podstawowym problemem: W jaki sposób sztuczna inteligencja może inteligentnie zbadać swoje środowisko bez wyraźnych instrukcji? Tradycyjne uczenie się wzmocnienia (RL) opiera się próba i błądczęsto marnowanie ogromnej ilości czasu w interakcji losowo z otoczeniem. Podczas gdy modele AI można szkolić do efektywnego rozwiązywania określonych zadań, Doprowadzenie ich do znacznego odkrywania nowych środowisk – bez predefiniowanych celów – było poważnym wyzwaniem.
Niedawne badanie autor: Cansu Sancaktar, Christian Gumbsch, Andrii Zadaianchuk, Pavel Kolev i Georg Martius z University of Tübingen, Max Planck Institute, Tu Dresden i University of Amsterdam wprowadza obiecujące rozwiązanie: Sensei (semantycznie rozsądna eksploracja).
W przeciwieństwie do poprzednich metod, które traktują eksplorację jako Problem z brutalną siłąSensei przyjmuje inne podejście – takiego naśladuje Jak ludzie, zwłaszcza dzieci, badają świat. Zamiast po prostu losowo próbować nowych rzeczy, ludzie szukają znaczące interakcje—Moining Drofoberów zamiast po prostu walić w biurka, naciskając guziki zamiast wymieniać ręce. Sensei to przynosi Ludzka ciekawość dla sztucznych agentów, stosując Modele fundamentowe, takie jak modele języka wizji (VLM) Do Przewodnik eksploracji ze zrozumieniem semantycznym.
Problem z eksploracją AI
Aby agenci AI mogli nauczyć się nowych zadań, muszą najpierw zbadać swoje środowisko. Tradycyjne metody eksploracji opierają się na Wewnętrzna motywacjaco oznacza, że AI otrzymuje wewnętrzną nagrodę za generujące działania nowość Lub zmaksymalizować wzmocnienie informacji. Jednak to podejście często prowadzi Zachowania na niskim poziomie, nieustrukturyzowane– taki jak robot poruszający się losowo lub wielokrotnie dotykającymi obiektami bez uznania ich znaczenia.
Wyobraź sobie robota w pokoju pełnym przedmiotów:
- Standardowy agent RL Może wypróbować każdą akcję losowo – wykonywanie biurka, wirujące w kółko lub chwytanie powietrza – bez priorytetów przydatnych interakcji.
- Uczeń podobny do człowiekanatomiast Naturalnie skup się na obiektach takich jak szuflady i przyciskiuznanie ich za źródła znaczące interakcje.
Tam jest Sensei wkracza.
AI obsługuje teraz symulacje molekularne: dzięki mdcrow
Jak Sensei uczy sztucznej inteligencji odkrywania jak człowiek
Sensei wprowadza Nowy rodzaj wewnętrznej motywacji—Wata na podstawie Zrozumienie semantyczne. Zamiast odkrywać ślepo, AI jest kierowane przez What A Foundation Model (na dużą skalę AI przeszkolonych na temat ogromnych ilości danych) uważa za „interesujące”.
Proces działa w trzech głównych krokach:
1. Nauczanie AI tego, co jest „interesujące”
Zanim agent zacznie się odkrywać, sensei używa Model języka wizji (VLM), taki jak GPT-4V ocena obrazów środowiska. VLM jest zadawane pytania, takie jak:
„Który z tych dwóch obrazów jest bardziej interesujący?”
Z tych porównań Sensei destyls a Semantyczna funkcja nagrodyucząc AI Jakie rodzaje interakcji mają znaczenie.
2. Nauka modelu światowego
Kiedy AI rozumie, co jest uważane za „interesujące”, to buduje wewnętrzny model świata– System predykcyjny, który pomaga przewidzieć, w jaki sposób środowisko zareaguje na jego działania.
- Zamiast potrzebować Nieustannie zapytaj model fundamentuAI uczy się przewidywać interesującość sam.
- Zmniejsza to poleganie na modelach zewnętrznych i pozwala na to Szybsza, kierowana eksploracją.
3. Badanie mądrzejszego, a nie mocniej
Dzięki temu zrozumieniu AI jest teraz kierowane dwoma konkurującymi motywacjami:
- Znajdź interesujące rzeczy (zmaksymalizować nagrodę semantyczną).
- Pchnij granice tego, co wie (Zwiększ niepewność poprzez badanie nowych obszarów).
Wynik? Agenci AI Odblokuj zachowania, które są zarówno nowe, jak i znaczące-podobnie jak eksploracja ludzkiej ciekawości.
Co sensei może zrobić: AI, która odblokowuje interakcje w świecie rzeczywistym
Naukowcy przetestowali sensei w dwa różne środowiska:
1. Symulacje gier wideo (minihack)
- W grze, w której AI musiała Znajdź klucz do otwarcia zamkniętych drzwiSensei Priorytetyzowane interakcje z kluczem i drzwiami—P takcie jak człowiek.
- Tradycyjne metody eksploracji sztucznej inteligencji często utknęły w losowych ruchach bez zrozumienia Znaczenie obiektów na scenie.
- Sensei rozwiązał zagadki gry szybciej i przy mniejszych zmarnowanych działaniach niż inne metody AI.
2. Symulacje robotyczne (Robodesk)
- W Środowisko ramion robotaSensei skupione na manipulowaniu obiektami, takimi jak szuflady i przyciskinaturalne uczenie się znaczących zadań.
- Konkurencyjne systemy AI losowo wymachił Lub Utknął powtarzające się działania bez prawdziwego celu.
W obu przypadkach Sensei nie po prostu nie pokryć więcej ziemi-To skupione na interakcjach, które miały znaczenieprowadząc do bogatsze i bardziej wydajne uczenie się.
Dlaczego to ma znaczenie: przyszłość eksploracji AI
Zdolność Sensei do Priorytetyzuj znaczące interakcje może zrewolucjonizować robotykę, pozwalając na roboty Samokształcenie przydatne zachowania bez wyraźnego programowania. Wyobrażać sobie:
- Asystent domowy, który Dostosuj, jak korzystać z nowych urządzeń bez instrukcji krok po kroku.
- Roboty przemysłowe to dostosuj się do nowych zadań w fabrykach bez interwencji człowieka.
Skupiając się na semantycznie istotna eksploracjaAi może Zmniejsz zmarnowane obliczeniaprowadząc do szybsze i bardziej energooszczędne uczenie się.
Jednym z największych wyzwań w sztucznej inteligencji jest tworzenie systemów, które Ucz się elastycznie jak ludzie. Sensei reprezentuje krok w kierunku agentów AI, którzy mogą inteligentnie odkrywać nowe środowiska– bez polegania na ręcznie wykonane dane szkoleniowe lub predefiniowane cele.
Ograniczenia
Chwila Sensei jest głównym skokiem naprzódnadal ma pewne ograniczenia:
- Opiera się na wysokiej jakości wkładu wizualnym. Jeśli kamera AI jest zablokowana lub zniekształcona, może wpłynąć na jego zrozumienie.
- To nie jest jeszcze multimodalne. Chociaż działa dobrze z obrazami, przyszłe wersje mogą zawierać dźwięk, tekst i inne dane sensoryczne do bogatszej eksploracji.
- Zakłada, że ogólna ludzka ciekawość jest zawsze korzystna. W niektórych wyspecjalizowanych aplikacjach niektóre interakcje mogą nie być przydatne.
Wyróżniony obraz obrazu: Kerem Gülen/Midjourney