Sztuczna inteligencja w końcu uczy się, jak poruszać się po ekranie telefonu jak człowiek – z wyjątkiem szybszego, mądrzejszego i szokująco małej praktyki. Nowy badania Projekt z Vivo AI Lab i MMLAB na chińskim uniwersytecie w Hongkongu wprowadza model o nazwie UI-R1który przemyśla sposób, w jaki agenci AI są przeszkoleni do zrozumienia i interakcji z graficznymi interfejsami użytkownika (GUIS). A oto zwrot: nie opiera się na ogromnych zestawach danych ani tysięcy godzin GPU.
Zamiast tego UI-R1 robi coś odświeżająco sprytnego. Uczy się Uczenie się wzmocnienia (RL)-Nie nadzorowane dopracowanie (SFT), standardowa metoda, która wymaga ręcznie oznaczonych danych i drogich cykli szkoleniowych. Oznacza to, że nie ma potrzeby karmienia dziesiątek tysięcy przykładów przycisków, słupków przewijania lub pól tekstowych. Wystarczy starannie wybrana partia 136 zadań mobilnych, aby zbudować model, który działa lepiej niż wiele większych, mocno wyszkolonych modeli w rzeczywistych zadaniach ekranowych.
Rozpakujmy, dlaczego to ma znaczenie i jak to działa.
Więc co faktycznie robi UI-R1?
Zdjęcie to: patrzysz na zrzut ekranu ekranu telefonu i ktoś mówi, aby „dotknąć przycisku wstecznego”. Patrzysz na układ, zastanawiasz się, gdzie jest przycisk Wstecz i dotknij go. Wydaje się łatwe dla człowieka.
Teraz wyobraź sobie, że trenuję sztuczną inteligencję, aby to zrobić. Przez lata oznaczało to szkolenie ogromnych modeli multimodalnych (modele, które mogą zrozumieć obrazy i tekst razem) w celu powiązania poleceń takich jak „Stukaj” z właściwym miejscem na ekranie. Tak właśnie robią agenci GUI, tacy jak Cogagent, Aria-Gui i OS-Atlas-uczą się z ogromnych zestawów danych z oznaczonymi przykładami działań i elementów.
Ale ten proces jest powolny, drogi i nie uogólnia się dobrze. Po przeniesieniu sztucznej inteligencji z ekranu telefonu do interfejsu komputerowego lub przeglądarki internetowej jej wydajność często zbiornik. To jak szkolenie psa, aby przynieść piłkę, ale tylko w jednym pokoju twojego domu – na zewnątrz, a pies zapomina, co robić.
UI-R1 to zmienia. Zamiast próbować „zapamiętać” tysiące układów interfejsu, uczy się, jak rozumować o nich za pomocą uczenia się wzmocnienia i sprytny system nagród oparty na regułach.
Mądrzejszy system nagród, a nie większy model
Model za UI-R1 nazywany jest QWEN2.5-VL-3B– Model multimodalny 3 miliardów parametrów, znacznie mniejszy niż gigantów 7B i 18B w grze. Ale UI-R1 dopracowuje go za pomocą RL z unikalnym systemem nagrody, który nie wymaga ludzkiej informacji zwrotnej.
Ta funkcja nagrody ocenia model trzech rzeczy:
- Czy wybrał odpowiedni typ akcji? (Kliknij, przewiń, wróć, otwórz aplikację, tekst wejściowy)
- Czy wybrał właściwe miejsce do kliknięcia? (Współrzędne muszą należeć do poprawnego pola)
- Czy wyraźnie wyjaśnił swoje rozumowanie i dostarczył ważną ostateczną odpowiedź? (Przy użyciu formatu strukturalnego)
Ta strukturalna pętla sprzężenia zwrotnego pomaga modelowi nauczyć się w czasie w tworzeniu lepszych prognoz. Pomyśl o tym jak o grze: za każdym razem, gdy AI zbliża się do właściwej odpowiedzi, zdobywa punkty na podstawie tych zasad i stopniowo wymyśla, jak częściej wygrać.
Co ważne, nie tylko nauka zgadywania – uczy się wyjaśniać, dlaczego uważa, że określony przycisk jest odpowiedni do dotknięcia. Jest to klucz dla agentów budowlanych, którym możesz zaufać, aby obsługiwać oprogramowanie, aplikacje i urządzenia.
AI Masters Language, ale Flunks Lego 101
Małe dane, duże zyski
Tutaj sprawy stają się dzikie. UI-R1 był wyszkolony na samym 136 przykładów– I nadal przewyższało wiele nadzorowanych modeli przeszkolonych w zakresie tysięcy.
Na testach porównawczych Screenspot I Screenspot-Proktóre testują, jak dobrze model może zidentyfikować elementy interfejsu użytkownika na platformach (mobil, komputer i internet), UI-R1 dostarczył dokładność uziemienia 78,6%Pokonanie modeli takich jak Seeclick (przeszkolone na 1 milionie przykładów!), A nawet dopasowanie wydajności większych modeli 7B.
Zaskoczył także kolejny punkt odniesienia o nazwie AndroidControlgdzie musiał przewidzieć zarówno właściwy typ działania, jak i gdzie go zastosować. UI-R1 z takkiem z Średnia dokładność 88,5%przewyższające modele wyszkolone na 76 000 przykładów – absurdalny poziom wydajności dla zaledwie 136 zadań treningowych.
To tak, jakby uczyć kogoś szachów, pokazując mu tylko 10 gier – i obserwując, jak pokonali mistrza klubu.
Dlaczego to działa tak dobrze?
Kilka rzeczy wyróżnia UI-R1:
- Nagrody oparte na regułach: Brak potrzeby oznaczonych danych lub recenzentów ludzkich. Model ocenia się na podstawie prostych, ustrukturyzowanych reguł.
- Wzmocnienie nad powtórzeniem: Zamiast zapamiętywania odpowiedzi (jak podczas szkolenia nadzorowanego), UI-R1 uczy się strategii uogólniających.
- Starannie wybrane dane: Zespół nie po prostu wrzucił żadnych przykładów szkolenia. Wybrali zadania, które były twarde, różnorodne i wysokiej jakości. Brak wypełniacza.
A być może, co najważniejsze, model nie tylko ślepo zgaduje. Dzięki „tokenom rozumowania” i ustrukturyzowanemu formatowi wyjściowe (
Co to oznacza dla interfejsów AI?
To może być początek nowej fali ogólnych agentów GUI. Zamiast szkolić modele na zamówienie dla każdej aplikacji, platformy lub zadania, możemy być w stanie budować kompaktowe, dostosowujące się modele, takie jak UI-R1, które mogą uzasadnić dowolny ekran, dowolne urządzenie, dowolne instrukcje.
- Dla programistówoznacza to niższe koszty, mniej danych i szybszą iterację.
- Dla użytkownikówmoże to oznaczać mądrzejsze wirtualne asystenci, którzy faktycznie rozumieją, co chcesz robić na ekranie.
- Dla naukowcówjest to dowód na to, że uczenie się wzmocnienia z prostymi nagrodami opartymi na regułach nie jest tylko dla gier i problemów matematycznych-jest to prawdziwa alternatywa dla SFT dla zadań interfejsu.
Jest jeszcze wcześnie
Chociaż wyniki UI-R1 są imponujące, jest więcej do zrobienia. Na przykład nadal wymaga czystych formatów wejściowych i starannie napisanych podpowiedzi. Zakłada również, że zrzuty ekranu i instrukcje urządzenia są rozsądnie wyrównane – bezpieczne założenie w warunkach porównawczych, ale trudniejsze w niechlujnym świecie rzeczywistym.
Mimo to jest to duży krok naprzód.
I być może najbardziej ekscytujące, to pokazuje Mądrzejszy trening bije większe modele– Przynajmniej jeśli chodzi o zrozumienie tego, co jest na ekranie i ustalić, jak działać.
W świecie, w którym jesteśmy otoczeni coraz bardziej złożonym oprogramowaniem, sztuczna inteligencja jak UI-R1 może wkrótce być jednym kliknięciem, przewijaniem i stukaniem w naszym imieniu-z precyzją, rozumem i prawie żadnym szkoleniem.