Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Laboratoria AI Inwestują w środowiska RL dla agentów autonomicznych

byAytun Çelebi
17 września 2025
in Przemysł, Sztuczna Inteligencja
Home Przemysł
Share on FacebookShare on Twitter
Google Preferred Source

Inwestorzy Doliny Krzemowej i główne laboratoria AI dokonują znacznych inwestycji w środowiska uczenia się wzmocnienia (RL), które są symulowane przestrzeni robocze zaprojektowane do szkolenia agentów AI w celu autonomicznego korzystania z oprogramowania. Podczas gdy agenci AI, tacy jak agent Chatgpt Openai, obiecali, nadal walczą ze złożonymi, wieloetapowymi zadaniami. Ta nowa fala inwestycji koncentruje się na tworzeniu wyrafinowanych podstaw treningowych w celu przezwyciężenia tych ograniczeń, wykraczających poza statyczne, oznaczone zestawy danych, które napędzały ostatnią generację sztucznej inteligencji.

Jak działają środowiska uczenia się wzmocnienia AI

Środowiska RL to wirtualne podstawy, w których agent AI może ćwiczyć za pomocą oprogramowania w kontrolowanym otoczeniu. Agent otrzymuje informacje zwrotne za pośrednictwem systemu nagród i kar, podobnie jak gra. Na przykład agent, którego zadaniem jest kupowanie skarpet na Amazon w symulowanej przeglądarce Chrome, otrzymałby pozytywną nagrodę za pomyślne zakończenie zakupu. Otrzymałby karę za błędy, takie jak wybór niewłaściwego elementu lub brak poruszania się po menu. Te dynamiczne środowiska są o wiele bardziej złożone w budowie niż statyczne zestawy danych. Muszą uwzględniać szeroki zakres nieprzewidywalnych działań agentów i przekazać precyzyjne informacje zwrotne w celu uzyskania poprawy. Koncepcja opiera się na wcześniejszych badaniach AI, takich jak „RL Gyms” opracowane przez Openai w 2016 r. I symulowaną tablicę wykorzystywaną do szkolenia Alphago DeepMind. Jednak dzisiejsze środowiska są stosowane do modeli transformatorów ogólnego przeznaczenia, aby wyszkolić je do zadań otwartych, takich jak nawigacja internetowa i edycja dokumentów.

Pojawia się nowy ekosystem startupów, aby zaspokoić popyt

Główne laboratoria AI, takie jak Openai, Anthropic i Meta, budują własne środowiska RL, ale złożoność i skala zadania stworzyły zapotrzebowanie na specjalistów stron trzecich. Przyczyniło to wzrost nowego ekosystemu startupów i skłoniło ustalone firmy danych do obrotu.

  • Prace mechanizowanenowy startup, koncentruje się na tworzeniu niewielkiej liczby środowisk o wysokiej wierności dla zadań takich jak kodowanie AI. Firma podobno współpracuje z Anthropic i oferuje pensje do 500 000 USD, aby przyciągnąć najlepsze talenty inżynieryjne.
  • Główny intelekt Trzega na mniejszych programistów z ośrodkiem open source, który nazywa „przytulającą twarz dla środowisk RL”. Platforma zapewnia dostęp do wstępnie zbudowanych symulacji i sprzedaje zasoby obliczeniowe potrzebne do ich uruchomienia.
  • WzrostFirma znakująca dane, która w ubiegłym roku zgłosiła 1,2 miliarda dolarów przychodów, stworzyła nową wewnętrzną organizację poświęconą budowaniu środowisk RL w celu zaspokojenia rosnącego popytu ze strony swoich klientów.
  • Mercor opracowuje środowiska specyficzne dla domeny dla pól takich jak kodowanie, opieka zdrowotna i prawo, w których agenci mogą być przeszkoleni w zakresie symulowanego oprogramowania do zadań, takich jak recenzowanie dokumentacji pacjentów lub umów prawnych.
  • Skala AIbyły lider w dziedzinie etykietowania danych, dostosowuje się również poprzez opracowanie środowisk RL, ponieważ stara się pozostać konkurencyjnym po utracie kluczowych umów z Google i OpenAI.

Wyzwania i ścieżka naprzód

Pomimo dużych inwestycji, w tym zgłoszony plan z antropika na przeznaczenie ponad 1 miliarda dolarów na środowiska RL, pozostają znaczące wyzwania. Ross Taylor, były kierownik ds. Badań AI w Meta, wskazał na problem „hakowania nagrody”, w którym agenci znajdują luki, aby zdobyć nagrody bez faktycznego wykonania zamierzonego zadania. Sherwin Wu Openai zauważył brak wyspecjalizowanych startupów, które mogą zaspokoić szybko ewoluujące potrzeby najlepszych laboratoriów. W społeczności AI toczy się również debata na temat najskuteczniejszych metod szkolenia.

Andrej Karpathyinwestor w Prime Intelekton, podzielił się niuansowym poglądem na X.

„Jestem uparty w środowiskach i interakcjach agencyjnych, ale jestem marynowany w zakresie uczenia się wzmocnienia”.

Ta perspektywa podkreśla entuzjazm korzystania z symulowanych środowisk, a jednocześnie uznaje, że najlepszym sposobem wyodrębnienia z nich inteligencji jest nadal otwarte pytanie. Niemniej jednak środowiska te są postrzegane jako kluczowy element w opracowywaniu nowej generacji bardziej zdolnych i autonomicznych agentów AI, zasilania najnowszych przełomów, takich jak O1 O1 OPUS OPUS 4.


Polecane wizerunki

Tags: AiWyróżniony

Related Posts

Reguły rezygnacji z wyszukiwania Google AI powodują uruchomienie przeglądarki Enviromates

Reguły rezygnacji z wyszukiwania Google AI powodują uruchomienie przeglądarki Enviromates

3 czerwca 2026
Według doniesień brakuje nowych chipów Intel Core Ultra

Według doniesień brakuje nowych chipów Intel Core Ultra

3 czerwca 2026
Anthropic zaprasza 150 kolejnych organizacji do projektu Glasswing

Anthropic zaprasza 150 kolejnych organizacji do projektu Glasswing

3 czerwca 2026
Wow Meta, dziękuję za całe 30 minut bez smyczy

Wow Meta, dziękuję za całe 30 minut bez smyczy

3 czerwca 2026
Microsoft przedstawia projekt Solara, który będzie przyszłością skupiającą się na agentach

Microsoft przedstawia projekt Solara, który będzie przyszłością skupiającą się na agentach

3 czerwca 2026
Parlament Europejski usuwa Google jako domyślną wyszukiwarkę

Parlament Europejski usuwa Google jako domyślną wyszukiwarkę

3 czerwca 2026

Recent Posts

  • Reguły rezygnacji z wyszukiwania Google AI powodują uruchomienie przeglądarki Enviromates
  • Sony ujawnia God of War: Laufey na PS5
  • Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych
  • Microsoft przedstawia Surface RTX Spark Dev Box dla obciążeń AI
  • Według doniesień brakuje nowych chipów Intel Core Ultra

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.