Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Laboratoria AI Inwestują w środowiska RL dla agentów autonomicznych

byAytun Çelebi
17 września 2025
in Artificial Intelligence, Industry
Home Artificial Intelligence

Inwestorzy Doliny Krzemowej i główne laboratoria AI dokonują znacznych inwestycji w środowiska uczenia się wzmocnienia (RL), które są symulowane przestrzeni robocze zaprojektowane do szkolenia agentów AI w celu autonomicznego korzystania z oprogramowania. Podczas gdy agenci AI, tacy jak agent Chatgpt Openai, obiecali, nadal walczą ze złożonymi, wieloetapowymi zadaniami. Ta nowa fala inwestycji koncentruje się na tworzeniu wyrafinowanych podstaw treningowych w celu przezwyciężenia tych ograniczeń, wykraczających poza statyczne, oznaczone zestawy danych, które napędzały ostatnią generację sztucznej inteligencji.

Jak działają środowiska uczenia się wzmocnienia AI

Środowiska RL to wirtualne podstawy, w których agent AI może ćwiczyć za pomocą oprogramowania w kontrolowanym otoczeniu. Agent otrzymuje informacje zwrotne za pośrednictwem systemu nagród i kar, podobnie jak gra. Na przykład agent, którego zadaniem jest kupowanie skarpet na Amazon w symulowanej przeglądarce Chrome, otrzymałby pozytywną nagrodę za pomyślne zakończenie zakupu. Otrzymałby karę za błędy, takie jak wybór niewłaściwego elementu lub brak poruszania się po menu. Te dynamiczne środowiska są o wiele bardziej złożone w budowie niż statyczne zestawy danych. Muszą uwzględniać szeroki zakres nieprzewidywalnych działań agentów i przekazać precyzyjne informacje zwrotne w celu uzyskania poprawy. Koncepcja opiera się na wcześniejszych badaniach AI, takich jak „RL Gyms” opracowane przez Openai w 2016 r. I symulowaną tablicę wykorzystywaną do szkolenia Alphago DeepMind. Jednak dzisiejsze środowiska są stosowane do modeli transformatorów ogólnego przeznaczenia, aby wyszkolić je do zadań otwartych, takich jak nawigacja internetowa i edycja dokumentów.

Pojawia się nowy ekosystem startupów, aby zaspokoić popyt

Główne laboratoria AI, takie jak Openai, Anthropic i Meta, budują własne środowiska RL, ale złożoność i skala zadania stworzyły zapotrzebowanie na specjalistów stron trzecich. Przyczyniło to wzrost nowego ekosystemu startupów i skłoniło ustalone firmy danych do obrotu.

  • Prace mechanizowanenowy startup, koncentruje się na tworzeniu niewielkiej liczby środowisk o wysokiej wierności dla zadań takich jak kodowanie AI. Firma podobno współpracuje z Anthropic i oferuje pensje do 500 000 USD, aby przyciągnąć najlepsze talenty inżynieryjne.
  • Główny intelekt Trzega na mniejszych programistów z ośrodkiem open source, który nazywa „przytulającą twarz dla środowisk RL”. Platforma zapewnia dostęp do wstępnie zbudowanych symulacji i sprzedaje zasoby obliczeniowe potrzebne do ich uruchomienia.
  • WzrostFirma znakująca dane, która w ubiegłym roku zgłosiła 1,2 miliarda dolarów przychodów, stworzyła nową wewnętrzną organizację poświęconą budowaniu środowisk RL w celu zaspokojenia rosnącego popytu ze strony swoich klientów.
  • Mercor opracowuje środowiska specyficzne dla domeny dla pól takich jak kodowanie, opieka zdrowotna i prawo, w których agenci mogą być przeszkoleni w zakresie symulowanego oprogramowania do zadań, takich jak recenzowanie dokumentacji pacjentów lub umów prawnych.
  • Skala AIbyły lider w dziedzinie etykietowania danych, dostosowuje się również poprzez opracowanie środowisk RL, ponieważ stara się pozostać konkurencyjnym po utracie kluczowych umów z Google i OpenAI.

Wyzwania i ścieżka naprzód

Pomimo dużych inwestycji, w tym zgłoszony plan z antropika na przeznaczenie ponad 1 miliarda dolarów na środowiska RL, pozostają znaczące wyzwania. Ross Taylor, były kierownik ds. Badań AI w Meta, wskazał na problem „hakowania nagrody”, w którym agenci znajdują luki, aby zdobyć nagrody bez faktycznego wykonania zamierzonego zadania. Sherwin Wu Openai zauważył brak wyspecjalizowanych startupów, które mogą zaspokoić szybko ewoluujące potrzeby najlepszych laboratoriów. W społeczności AI toczy się również debata na temat najskuteczniejszych metod szkolenia.

Andrej Karpathyinwestor w Prime Intelekton, podzielił się niuansowym poglądem na X.

„Jestem uparty w środowiskach i interakcjach agencyjnych, ale jestem marynowany w zakresie uczenia się wzmocnienia”.

Ta perspektywa podkreśla entuzjazm korzystania z symulowanych środowisk, a jednocześnie uznaje, że najlepszym sposobem wyodrębnienia z nich inteligencji jest nadal otwarte pytanie. Niemniej jednak środowiska te są postrzegane jako kluczowy element w opracowywaniu nowej generacji bardziej zdolnych i autonomicznych agentów AI, zasilania najnowszych przełomów, takich jak O1 O1 OPUS OPUS 4.


Polecane wizerunki

Tags: AiWyróżniony

Related Posts

Skala AI zabezpiecza umowę Pentagonu o wartości 100 milionów dolarów na wdrożenie platformy AI

Skala AI zabezpiecza umowę Pentagonu o wartości 100 milionów dolarów na wdrożenie platformy AI

17 września 2025
Narzędzie AI wykorzystuje mammogramy do przewidywania 10-letniego zdrowia serca i ryzyka raka kobiet

Narzędzie AI wykorzystuje mammogramy do przewidywania 10-letniego zdrowia serca i ryzyka raka kobiet

17 września 2025
Google uruchamia platformę AI No-Code Gemini Canvas

Google uruchamia platformę AI No-Code Gemini Canvas

17 września 2025
Openai’s Chatgpt-5 w końcu dostał "połowa wiedzy"

Openai’s Chatgpt-5 w końcu dostał "połowa wiedzy"

17 września 2025
Badacze Openai identyfikują matematyczne przyczyny halucynacji AI

Badacze Openai identyfikują matematyczne przyczyny halucynacji AI

17 września 2025
Microsoft zainstaluje Copilot na wszystkich komputerach od jesieni 2025

Microsoft zainstaluje Copilot na wszystkich komputerach od jesieni 2025

17 września 2025

Recent Posts

  • Laboratoria AI Inwestują w środowiska RL dla agentów autonomicznych
  • Skala AI zabezpiecza umowę Pentagonu o wartości 100 milionów dolarów na wdrożenie platformy AI
  • Narzędzie AI wykorzystuje mammogramy do przewidywania 10-letniego zdrowia serca i ryzyka raka kobiet
  • DJI Mini 5 Pro wprowadza na rynek 1-calowy czujnik, ale pomija oficjalne wydanie USA
  • Google uruchamia platformę AI No-Code Gemini Canvas

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.