Inwestorzy Doliny Krzemowej i główne laboratoria AI dokonują znacznych inwestycji w środowiska uczenia się wzmocnienia (RL), które są symulowane przestrzeni robocze zaprojektowane do szkolenia agentów AI w celu autonomicznego korzystania z oprogramowania. Podczas gdy agenci AI, tacy jak agent Chatgpt Openai, obiecali, nadal walczą ze złożonymi, wieloetapowymi zadaniami. Ta nowa fala inwestycji koncentruje się na tworzeniu wyrafinowanych podstaw treningowych w celu przezwyciężenia tych ograniczeń, wykraczających poza statyczne, oznaczone zestawy danych, które napędzały ostatnią generację sztucznej inteligencji.
Jak działają środowiska uczenia się wzmocnienia AI
Środowiska RL to wirtualne podstawy, w których agent AI może ćwiczyć za pomocą oprogramowania w kontrolowanym otoczeniu. Agent otrzymuje informacje zwrotne za pośrednictwem systemu nagród i kar, podobnie jak gra. Na przykład agent, którego zadaniem jest kupowanie skarpet na Amazon w symulowanej przeglądarce Chrome, otrzymałby pozytywną nagrodę za pomyślne zakończenie zakupu. Otrzymałby karę za błędy, takie jak wybór niewłaściwego elementu lub brak poruszania się po menu. Te dynamiczne środowiska są o wiele bardziej złożone w budowie niż statyczne zestawy danych. Muszą uwzględniać szeroki zakres nieprzewidywalnych działań agentów i przekazać precyzyjne informacje zwrotne w celu uzyskania poprawy. Koncepcja opiera się na wcześniejszych badaniach AI, takich jak „RL Gyms” opracowane przez Openai w 2016 r. I symulowaną tablicę wykorzystywaną do szkolenia Alphago DeepMind. Jednak dzisiejsze środowiska są stosowane do modeli transformatorów ogólnego przeznaczenia, aby wyszkolić je do zadań otwartych, takich jak nawigacja internetowa i edycja dokumentów.
Pojawia się nowy ekosystem startupów, aby zaspokoić popyt
Główne laboratoria AI, takie jak Openai, Anthropic i Meta, budują własne środowiska RL, ale złożoność i skala zadania stworzyły zapotrzebowanie na specjalistów stron trzecich. Przyczyniło to wzrost nowego ekosystemu startupów i skłoniło ustalone firmy danych do obrotu.
- Prace mechanizowanenowy startup, koncentruje się na tworzeniu niewielkiej liczby środowisk o wysokiej wierności dla zadań takich jak kodowanie AI. Firma podobno współpracuje z Anthropic i oferuje pensje do 500 000 USD, aby przyciągnąć najlepsze talenty inżynieryjne.
- Główny intelekt Trzega na mniejszych programistów z ośrodkiem open source, który nazywa „przytulającą twarz dla środowisk RL”. Platforma zapewnia dostęp do wstępnie zbudowanych symulacji i sprzedaje zasoby obliczeniowe potrzebne do ich uruchomienia.
- WzrostFirma znakująca dane, która w ubiegłym roku zgłosiła 1,2 miliarda dolarów przychodów, stworzyła nową wewnętrzną organizację poświęconą budowaniu środowisk RL w celu zaspokojenia rosnącego popytu ze strony swoich klientów.
- Mercor opracowuje środowiska specyficzne dla domeny dla pól takich jak kodowanie, opieka zdrowotna i prawo, w których agenci mogą być przeszkoleni w zakresie symulowanego oprogramowania do zadań, takich jak recenzowanie dokumentacji pacjentów lub umów prawnych.
- Skala AIbyły lider w dziedzinie etykietowania danych, dostosowuje się również poprzez opracowanie środowisk RL, ponieważ stara się pozostać konkurencyjnym po utracie kluczowych umów z Google i OpenAI.
Wyzwania i ścieżka naprzód
Pomimo dużych inwestycji, w tym zgłoszony plan z antropika na przeznaczenie ponad 1 miliarda dolarów na środowiska RL, pozostają znaczące wyzwania. Ross Taylor, były kierownik ds. Badań AI w Meta, wskazał na problem „hakowania nagrody”, w którym agenci znajdują luki, aby zdobyć nagrody bez faktycznego wykonania zamierzonego zadania. Sherwin Wu Openai zauważył brak wyspecjalizowanych startupów, które mogą zaspokoić szybko ewoluujące potrzeby najlepszych laboratoriów. W społeczności AI toczy się również debata na temat najskuteczniejszych metod szkolenia.
Andrej Karpathyinwestor w Prime Intelekton, podzielił się niuansowym poglądem na X.
„Jestem uparty w środowiskach i interakcjach agencyjnych, ale jestem marynowany w zakresie uczenia się wzmocnienia”.
Ta perspektywa podkreśla entuzjazm korzystania z symulowanych środowisk, a jednocześnie uznaje, że najlepszym sposobem wyodrębnienia z nich inteligencji jest nadal otwarte pytanie. Niemniej jednak środowiska te są postrzegane jako kluczowy element w opracowywaniu nowej generacji bardziej zdolnych i autonomicznych agentów AI, zasilania najnowszych przełomów, takich jak O1 O1 OPUS OPUS 4.