Niedawny przełom Google DeepMind w postaci SIMA (samoinstruującego agenta multimodalnego) rzuca światło na szybki postęp w urzeczywistnianiu uniwersalnych agentów AI, zaprojektowanych specjalnie dla wirtualnych środowisk 3D.
Postęp ten niesie ze sobą potencjał transformacyjny nie tylko dla branży gier, ale także dla sposobu, w jaki współdziałamy z przestrzeniami wirtualnymi w szerokim spektrum zastosowań.
Dzięki zwiększonym możliwościom rozumienia instrukcji, dostosowywania się do nowych zadań i rozumowania w ramach ograniczeń wirtualnych światów, agenci podobni do SIMA oferują potencjał przekształcenia kilku kluczowych obszarów.
Ogromny sukces SIMA
Najnowszą innowacją DeepMind jest SIMA, co oznacza Scalable Instructable Multiworld Agent. W przeciwieństwie do poprzedniej sztucznej inteligencji skupiającej się na opanowaniu pojedynczej gry, SIMA jest sztuczną inteligencją o charakterze ogólnym.
SIMA nie ogranicza się do pikseli na ekranie. Może przetwarzać zarówno informacje wizualne (co widzi w grze) i instrukcje w języku naturalnym (co każe mu człowiek). To multimodalne uczenie się pozwala na bardziej zróżnicowane zrozumienie świata gry.
SIMA nie jest szkolona tylko w jednej grze. DeepMind współpracował z kilkoma twórcami gier, udostępniając SIMA różne tytuły, takie jak No Man’s Sky i Teardown. Ta różnorodność wzmacnia jego zdolność do adaptacji do nowych środowisk.
SIMA nie musi być karmiona łyżeczką każdej reguły. Postępując zgodnie z instrukcjami, może nauczyć się nowych umiejętności w grze, takich jak poruszanie się po nowym obszarze, wytwarzanie przedmiotu lub korzystanie z menu w grze. Dzięki temu jest znacznie bardziej wszechstronny niż tradycyjni agenci AI.
Nie daj się zwieść brakowi koncentracji na osiągnięciu jak najlepszych wyników. Choć robi wrażenie, to nie jest główny cel.
Prawdziwy sukces SIMA polega na jej zdolności do rozumienia instrukcji ludzkich w środowisku gry i działania zgodnie z nimi. Badanie to oznacza: a Zrobiliśmy OGROMNY krok, aby stworzyć sztuczną inteligencję, która może być dla nas pomocna w prawdziwy świat.
Niektóre z gier, w których Google DeepMind obsługuje ten przełomowy model sztucznej inteligencji, to:
- Symulator kozy 3
- Hydroner
- Niebo niczyje
- Zadowalający
- Zburzyć
- Valheima
- Chwiejne życie
Oprócz tych wszystkich gier zespół Google DeepMind testował także możliwości SIMA w stworzonych przez siebie realistycznych symulacjach o nazwie: „Środowiska badawcze„. Środowiska te, składające się z Construction Lab, Playhouse, ProcTHOR i WorldLab, symulują wiele obszarów, w których Uważa się, że sztuczna inteligencja zostanie zintegrowana w najbliższej przyszłości.
Magia SIMA
Multimodalne przetwarzanie danych wejściowych
SIMA wykorzystuje duże modele językowe (LLM), prawdopodobnie oparty na architekturze Transformer, w celu przetwarzania i rozumienia instrukcji w języku naturalnym wydawanych przez użytkownika. LLM doskonale radzą sobie z obsługą danych sekwencyjnych, takich jak tekst, dzięki czemu dobrze nadają się do tego zadania. Aby zrozumieć otoczenie, SIMA zatrudnia splotowe sieci neuronowe (CNN) przetwarzać dane wejściowe ze środowiska 3D.
Sieci CNN wyjątkowo dobrze radzą sobie z wydobywaniem cech i wzorców przestrzennych z obrazów lub strumieni wideo. SIMA prawdopodobnie wykorzystuje wiele sieci CNN do tworzenia różnych poziomów reprezentacji w ramach sygnału wizualnego w celu zapewnienia wszechstronnego zrozumienia.
Samokształcenie
Jedną z kluczowych innowacji leżących u podstaw SIMA jest zdolność dzielenia złożonych instrukcji na sekwencję prostszych podzadań. Prawdopodobnie można to osiągnąć poprzez połączenie przetwarzania języka naturalnego (aby przeanalizować instrukcje) i hierarchiczne uczenie się przez wzmacnianie (RL).
Hierarchiczny RL pozwala agentom uczyć się złożonych zachowań, opierając się na sekwencjach działań niższego poziomu.
Dodatkowo SIMA może generować własne dane i cele szkoleniowe, obserwując swoje działania w środowisku i wynikające z nich zmiany. Ta technika samonadzoru ma kluczowe znaczenie dla umożliwienia ciągłego uczenia się i adaptacji w nowych środowiskach, zapewniając jej elastyczność.

Uogólnienie typu zero-shot
Imponująca zdolność SIMA do wykonywania nowych zadań bez specjalnego szkolenia prawdopodobnie wynika z szeroko zakrojonych szkoleń wstępnych na ogromnym zestawie danych różnorodnych środowisk 3D i powiązanych instrukcji. To wstępne szkolenie pozwala modelowi zbudować bogatą wewnętrzną reprezentację wirtualnych światów i wspólnych instrukcji, umożliwiając mu uogólnienie wiedzy.
Jest prawdopodobne, że podczas szkolenia wstępnego stosowane jest podejście meta-uczenia się, co zachęca firmę SIMA do opracowania strategii „uczyć się, jak się uczyć„.
Dzięki temu agent może szybko zdobywać nowe umiejętności w niewidocznym środowisku.
Możesz dowiedzieć się więcej o pracy Google DeepMind nad ogólnym szkoleniem agentów AI przy użyciu gier z ich zasobów artykuł badawczy.
Ucz się z gier, aby zabłysnąć w prawdziwym świecie
Wierzcie lub nie, ale SIMA oznacza a punkt zwrotny w rozwoju AI.
Gry wideo oferują idealny poligon szkoleniowy dla sztucznej inteligencji ponieważ są to dynamiczne, samowystarczalne światy z jasnymi celami, zasadami i mechanizmami informacji zwrotnej.
W tych wirtualnych przestrzeniach agenci AI mogą eksperymentować, robić błędyi uczyć się na ich sukcesach i porażkach – a wszystko to bez zagrożeń lub ograniczeń świata rzeczywistego. W miarę jak SIMA eksploruje bardziej skomplikowane światy gier, a leżące u ich podstaw modele stają się potężniejsze, rozwija zdolność dostosowywania się, rozumienia instrukcji i opracowywania strategii w celu osiągnięcia celów.
Umiejętności te, doskonalone w bezpiecznej piaskownicy gry, przekładają się na wszechstronną i wydajną sztuczną inteligencję, która może potencjalnie poruszać się po złożoności naszego prawdziwego świata.
To jest tylko początek tego, co jest możliwe, gdy sztuczna inteligencja uczy się poprzez zabawę.
W rzeczywistości potencjał sztucznej inteligencji w stawianiu czoła wyzwaniom świata rzeczywistego staje się jasny, gdy przejrzyj podpowiedzi używane przez Google DeepMind w różnych grach.

Aby podać kilka przykładów:
„Zbierz rudę żelaza” wprowadź Zadowalający wskazuje na potencjał sztucznej inteligencji w zakresie poprawy bezpieczeństwa w niebezpiecznych branżach, takich jak górnictwo. – podaje Biuro Statystyki Pracy niepokojący wzrost liczby śmiertelnych obrażeń w górnictwie, z: Wzrost o 21,8% od 2020 r. do 2021 r. Wyobraź sobie, ile istnień ludzkich można by uratować, gdyby roboty napędzane sztuczną inteligencją, mniej podatne na błędy ludzkie i zmęczenie, zajmowały się niebezpiecznymi zadaniami górniczymi.
W grze o przetrwanie Valheima„Znajdź wodę” podkreśla siłę sztucznej inteligencji w rozwiązywaniu kluczowych problemów, takich jak niedobór wody. Bank Światowy podaje To około 226 milionów ludzi w Afryce Wschodniej i Południowej nie miało dostępu do podstawowych usług wodnycha 381 mln ludzi nie miało dostępu do podstawowych usług sanitarnych.
Kolejny robot, który bez przerwy będzie w stanie prowadzić badania wody w naturalnym źródle wody w regionie, może wpłynąć na życie miliardów ludzi.
Chociaż sztuczną inteligencję wydaje się dziś utożsamiać z generowaniem obrazu i nieustannymi chatbotami, uwierz nam, to coś znacznie więcej, a badania takie jak te niosą ze sobą ogromny potencjał lepszą przyszłość dla wszystkich.
Autor wyróżnionego obrazu: Freepik.