Czy zastanawiałeś się kiedyś, w jaki sposób możesz dość łatwo poruszać się po nowej dzielnicy lub wymyślić złożony projekt w domu? Prawdopodobnie radzisz sobie z tym bez łamania potu, znalezienia drogi lub ustawiania kroków bez mapowania każdej opcji. Pomyśl teraz o sztucznej inteligencji. Podczas gdy sztuczna inteligencja może zmiażdżyć określone gry lub liczby chrupania, budowanie sztucznej inteligencji, która nawiguje niechlujnym, częściowo znanym światem rzeczywistym, takim jak my jest nadal ogromnym wyzwaniem. Dlaczego jesteśmy tak dobrzy w tym złożonym planowaniu, często znajdując rozwiązania, które wydają się niemożliwie trudne dla komputerów? I dlaczego testy laboratoryjne czasami pokazują, jak odbywają się ścieżki, które technicznie nie są absolutnym „najlepszym”?
Ta łamigłówka jest kluczem do zrozumienia inteligencji, zarówno naszej, jak i sztucznego rodzaju. Standardowa sztuczna inteligencja często postrzega planowanie jako badanie gigantycznego rozgałęzienia drzewa wyborów i wyników. Im większe drzewo, tym trudniejszy problem. Ale ludzie najwyraźniej nie działają w ten sposób. Wydaje się, że nie nosimy idealnego, szczegółowego planu świata. Zespół naukowców z Dalhousie University, University of Waterloo, MIT i Cornell University ma fascynujący alternatywny pomysł. Co się stanie, jeśli nasze mapy mentalne nie są jak zdjęcia statyczne, ale bardziej jak elastyczne programy komputerowe?
Marta Kryven, Cole Wyeth, Aidan Curtis i Kevin Ellis sugerują, że nasz talent do planowania wynika z podstawowego przekonania: świat zwykle podąża za przewidywalnymi wzorami. Zamiast zapamiętywać każdy szczegół, być może budujemy modele mentalne przy użyciu kompaktowych programów, które wychwytują powtórzenia, symetrię i fragmenty wielokrotnego użytku. Pomyśl o rozpoznaniu standardowego układu podłóg biurowych lub sposobu, w jaki ulice często tworzą siatki. Ta idea „koncepcji jako programów” wyobraża sobie nasze mózgi, które nieustannie szukają światowego kodu do wydajnego nawigacji. Zanurzmy się w ich badanie.
Dlaczego plany i brutalna siła nie są
Dlaczego myślenie o mapach jako programach potencjalnie zmieniaczem gier? Spójrz, jak typowe planowanie sztucznej inteligencji, zwłaszcza gdy nie ma wszystkich informacji. Sytuacja ta jest często modelowana jako POMDP lub częściowo obserwowany proces decyzyjny Markowa. Znalezienie najlepszego rozwiązania zwykle obejmuje obliczenie szans dla każdego możliwego scenariusza i planowanie całej tej niepewności. Takie podejście szybko staje się przytłaczająco złożone, nawet w przypadku dość prostych środowisk. Po prostu nie wydaje się, aby ludzie poruszają się ludzie.
Poza tym jest takie dziwne rozłączenie. Naprawdę dobrze radzimy sobie z ustrukturyzowaną złożonością prawdziwego życia. Pomyśl o mieście, modułowe meble, szlaki w parku. Ale umieść ludzi w uproszczonych zadaniach laboratoryjnych zaprojektowanych bez jasnej struktury i często nie podążają matematycznie „optymalnej” ścieżki. Naukowcy kiedyś to przekazali granice umysłowe, na przykład myśleć tylko o kilku krokach do przodu. Ale Kryven i jej koledzy myślą, że może to przegapić. Może nie jesteśmy wadliwymi planistami. Może jesteśmy po prostu niesamowicie dobrymi planistami specjalnie dla ustrukturyzowanego świata, w którym faktycznie żyjemy. Szukamy wzorów i używamy ich.
Badacze AI starali się rozwiązać złożoność ze strategiami takimi jak hierarchiczne planowanie (rozbijanie dużych problemów na małe) lub rozpoznawanie podobnych stanów gry. Ale automatyczne uczenie się i wykorzystanie wiedzy strukturalnej „zdrowego rozsądku”, pozostaje poważną przeszkodą.
Poznaj GMP: Planowanie jak koder
Aby przetestować swój pomysł, naukowcy zbudowali model komputerowy o nazwie Generative Modular Planning lub GMP. Ten model działa na zasadzie map poznawczych jako programów. Nie przechowuje dokładnego obrazu miejsca. Zamiast tego przedstawia prosty program, który przechwytuje jego podstawową strukturę.
GMP ma dwie główne części:
- Generator map (GMM): Ta część przygląda się mapie, takiej jak labirynt w ich eksperymencie, i próbuje napisać najprostszy program, który może go odbudować. Oto naprawdę interesujący zwrot akcji. Naukowcy używali dużego modelu językowego, GPT-4, do tego zadania. Nie do planowania, ale do pisania kodu. Wprowadzili LLM do dostrzegania powtarzających się wzorów wizualnych w labiryncie. Następnie LLM napisał kod Pythona definiujący te fragmenty i wyjaśniając, jak je połączyć (poruszaj się, obracaj, odwróć), aby odtworzyć mapę. System preferuje proste programy, które wydajnie ponownie wykorzystują fragmenty. Jest to zgodne z zasadą sprzyjającą najbardziej skompresowanym wyjaśnieniu, zasadniczo szukającym najładniejszego kodu opisującego strukturę mapy.
- Planner modułowy (FP): Gdy GMM utworzy mapę programu wykonaną z fragmentów wielokrotnego użytku, moduł FP wymyśla, jak się poruszać. Zamiast obliczyć jedną ogromną, złożoną ścieżkę dla całej mapy, planuje skuteczną trasę w każdym rodzaju kawałka. Następnie, za każdym razem, gdy znów wpada w ten sam rodzaj kawałka, po prostu wyciąga i ponownie wykorzystuje plan, który już stworzył. Oszczędza to tonę mocy obliczeniowej i pamięci. Aby dostać się z jednego kawałka do drugiego, kieruje się w kierunku najbliższej, nieuzasadnionej fragmentu, zakładając początek, że cel (jak wyjście labiryntu) może być wszędzie.
Ten sposób planowania jest inteligentny w każdym module. Znajduje najlepszą ścieżkę w środku, który rozpoznał kawałek. Ale połączenie tych inteligentnych lokalnych ścieżek może prowadzić do globalnej trasy, która jest nieco dłuższa niż gdyby planista idealnie spojrzał na całą mapę. Ta możliwość sprytnego, wydajnego, ale być może nieco pośredniego trasy była dokładnie takim ludzkim zachowaniem, na które badacze obserwowali.
Czy ludzie faktycznie planują jak model GMP? Zespół użył zadania wyszukiwania labiryntu, aby się dowiedzieć. Trzydziestu uczestników poruszało 20 różnych labiryntów na komputerze, widząc świat z widoku pierwszej osoby. Części labiryntu były ukryte, dopóki nie zbliżyły się wystarczająco blisko. Ich cel: Znajdź ukryte wyjście, naznaczone czerwoną płytką.
Nie były to tylko labirynt. Zostały one specjalnie zaprojektowane z wyraźnymi, powtarzającymi się strukturami. Mieli modułowe układy wykonane z wyraźnych elementów, takich jak niektóre kształty pokoju lub sekcje korytarzy. Ta konfiguracja była idealna do sprawdzenia, czy ludzie naturalnie zbadaliby moduł według modułu, czy też wykonaliby skróty przecinające moduły, jeśli wydawało się to matematycznie krótsze, jak przewidywali tradycyjni optymalni planiści.
Zespół porównał ścieżki ludzi do trzech różnych modeli:
- GMP: Nowy model, obstawiający modułowe wyszukiwanie w oparciu o te mapy podobne do programu.
- Oczekiwana użyteczność: Standardowy „optymalny” planista, obliczając bezwzględną najkrótszą ścieżkę, biorąc pod uwagę niepewność.
- Użyteczność zniżką: Model, który naśladuje planowanie z ograniczoną uwagą (patrząc tylko kilka kroków do przodu), który dobrze wyjaśnił ludzkie zachowanie nieustrukturyzowane Mazes wcześniej.
Mazes zostały zaprojektowane, aby tradycyjne modele zwykle sugerowały ścieżki niemodarne, co ułatwia, która strategia preferują ludzie.
Jesteśmy modułowymi planistami
Odkrycia były dość jasne. Ludzie w przeważającej mierze stosowali modułowe strategie. Zbadali fragment strukturalnych Mazes przez kawałek, przesuwając się systematycznie z jednej rozpoznanej sekcji do najbliższej następnej. To nie był tylko przypadek; Był to spójny wzór w różnych projektach labiryntu i większości uczestników.
Naukowcy uważnie przyjrzeli się „dyskryminującym decyzjom”. Były to punkty w labiryncie, w których model GMP sugerował inny ruch niż tradycyjne modele. W tych kluczowych momentach, GMP wykonał znacznie lepszą robotę, przewidując, co ludzie faktycznie zrobią. Ludzie nie byli losowo nieefektywni; Byli systematycznie modułowy. Ich zachowanie pięknie ustawiło się na strategii, której można się spodziewać, gdyby używali programowych map mentalnych.
Jedną z naprawdę schludnych części tego badania jest sposób, w jaki używali LLM. To nie podejmowało decyzji. Zachowywał się jak stand-in dla człowieka Percepcja strukturalna. Ponieważ LLM są wyszkolone na górach pisania i kodu, wydają się pochłaniać wspólne sposoby, w jakie ludzie struktura rzeczy, w tym przestrzenie. Poproszeni o napisanie programu dla labiryntu, GPT-4 opracował awarie strukturalne, fragmenty i zasady, które pasowały do tego, jak ludzie później poruszali się.
Wskazuje to, że LLM mogą być przydatne do nie tylko generowania tekstu. Mogliby pomóc nam zrozumieć wbudowane założenia i skróty umysłowe, „indukcyjne uprzedzenia”, my ludzie, którzy używają, aby zrozumieć wszystko. Pomogło tutaj przetłumaczyć wizualny labirynt na przydatną, podobną do kodu strukturę idealną do wydajnego planowania.
Badania: okresowy stół do uczenia maszynowego
Zmiana sposobu myślenia o mapach mentalnych i sztucznej inteligencji
Badanie to kwestionuje starą ideę map poznawczych jako proste, statyczne zdjęcia w naszych głowach. Myślenie o nich jako aktywnych, programach generatywnych ma sens obliczeniowy. Wyjaśnia, w jaki sposób radzimy sobie z złożonym, niepewnym prawdziwym światem o ograniczonej sile mózgu. Wyjaśnia naszą wydajność w ustrukturyzowanych miejscach, a może nawet dlaczego czasami wybieramy ścieżki, które nie są matematycznie doskonałe, ale o wiele łatwiej są do zrozumienia i zapamiętania.
Dla sztucznej inteligencji oferuje to praktyczną ścieżkę naprzód. Model GMP pokazuje moc znalezienia struktury najpierw, a następnie modułowe planowanie. Zbudowane w ten sposób agenci AI mogą potencjalnie poruszać się z złożonymi, częściowo znanymi środowiskami znacznie wydajniej, wymagając znacznie mniejszej pamięci i mocy obliczeniowej. Wskazuje na sztuczną inteligencję, która planuje bardziej, tak jak my, dostrzegając wzorce zamiast tylko chrupiące możliwości.
Jasne, wciąż są pytania. Obecny model GMP przyjmuje proste założenia dotyczące poruszania się między kawałkami. Przyszłe badania muszą zbadać, w jaki sposób możemy ustalić priorytet niektórych obszarach w oparciu o wcześniejsze doświadczenie lub obecne cele. Jak dostosowujemy nasze programy mentalne, gdy świat nie pasuje do naszych oczekiwań? Jak bardzo nasze cele wpływają na postrzegane przez nas struktury? Nawet w przypadku tych otwartych pytań to badanie daje nam nowy, potężny sposób pomyślenia o tym, jak znajdujemy naszą drogę.
Ostatecznie sugeruje to coś głębokiego w nas. Nasza niesamowita zdolność do nawigacji i skutecznego działania w naszym złożonym świecie może sprowadzać się do naszych mózgów, którzy są ekspertami, stale dostrzegając podstawowy kod struktury rzeczywistości wokół nas i reprezentując ją nie tylko jako scenę, ale jako program gotowy do uruchomienia.