Co jeśli automatyzacja pulpitu nie chodziła o skryptowanie wzorów kliknięć, ale o nadanie systemowi operacyjnego inteligentnego zespołu agentów? To jest podstawowy pomysł UFO2Najnowszy system Microsoft open source, który przesuwa się poza obecne czynniki użytkownika komputerowego (CUA) i ponownie zmienia automatyzację jako abstrakcję systemu operacyjnego pierwszej klasy. Zmienia pulpit w inteligentny panel sterowania, w którym zadania oparte na języku są wykonywane natywnie, niezawodnie i przy minimalnym zakłóceniu przepływu pracy.
Tradycyjne narzędzia do automatyzacji komputerów stacjonarnych, takie jak systemy RPA, zawsze walczyły z solidnością. Niewielka zmiana interfejsu użytkownika może zniszczyć cały skrypt. CUA próbowały rozwiązać to za pomocą dużych modeli językowych i analizy zrzutów ekranu, ale pozostały one ograniczone przez płytką integrację systemu i niezgrabne doświadczenia użytkowników. UFO2 odwraca ten model, budując od systemu operacyjnego w górę. Wprowadza architekturę wieloagentową, w której Centralny hostagent współrzędne specjalistyczne Appagents do różnych aplikacji. Każdy agent mówi w języku ojczystym aplikacji za pośrednictwem API i metadanych interfejsu użytkownika, nie tylko pikseli.

Jedną z kluczowych innowacji technicznych UFO2 jest jego hybrydowy model działania. Zamiast po prostu kliknąć przyciski, takie jak człowiek, każdy Appagent może wywołać prawdziwe interfejsy API, jeśli są dostępne. Oznacza to, że zadania takie jak eksport arkusza kalkulacyjnego lub formatowanie tekstu są zmniejszone z wieloetapowych tańców GUI do jednego wywołania funkcji atomowej. System spekuluje również z wyprzedzeniem – wykorzystując pojedyncze połączenie LLM w celu zaplanowania wielu kroków i sprawdzania poprawności danych z interfejsu użytkownika systemu Windows. Ten Spekulacyjne wykonanie wielu działań dramatycznie zmniejsza opóźnienie bez ryzyka poprawności.
Izolacja bez przerwy
CUA zazwyczaj porywaj pulpit, blokując mysz i klawiaturę podczas wykonywania. UFO2 Obraz w obrazie (PIP) Tryb rozwiązuje to za pomocą wirtualnego okna pulpitu, które wykonuje zadania automatyzacji równolegle. Agent robi swoją rzecz w środowisku z piaskownicą, podczas gdy ty kontynuujesz pracę w sesji głównej. Jest bezproblemowy, bezpieczny i wykorzystuje natywną pętlę Windows RDP, aby utrzymać integralność sesji.

UFO2 integruje logi dokumentacji i realizacji pomocy w pamięć o pobieraniu, wzbogacając jej monity o wiedzę proceduralną. Z czasem tworzy to samodoskonalenia agenta, który staje się lepszy w nowych zadaniach bez przekwalifikowania. Każdy Appagent wyciąga dokumentację, notatki łatek i wcześniejszych biegów, aby podejmować mądrzejsze decyzje. Jest to system automatyzacji z pamięcią, a nie tylko generowanie odpowiedzi.
W odniesieniu do testów porównawczych przeciwko operatorowi Openai i innymi najlepszymi CUA, UFO2 konsekwentnie przewyższa. W odniesieniu OSWorld-W UFO2 osiąga 32,7% wskaźnik sukcesu za pomocą modelu O1-więcej niż podwojenie 14,3% operatora. Jego spekulacyjne planowanie zmniejsza kroki działania nawet o 50%. Wykrywanie kontroli hybrydowej (łączące API UIA i parsowanie widzenia) odzyskuje ponad 25% wcześniej nieudanych interakcji. Mówiąc wprost, UFO2 nie jest po prostu mądrzejszy – jest systemowo lepszy.
Wszystko jest teraz agentem
Rozszerzalność jest wleczona. UFO2 pozwala na narzędzia stron trzecich, w tym inne CUA, takie jak operator, są owinięte jako apaganci. Oznacza to, że możesz zintegrować specjalistyczne Copilots lub zastrzeżone zaplecze automatyzacji z ekosystemem UFO2 bez przekwalifikowania lub przepisywania kodu. Obsługuje również architekturę klientów-serwerów dla wdrażania przedsiębiorstw, utrzymując scentralizowane orkiestrowanie i światło.
W artykule przedstawia przyszłe cele, w tym kompatybilność międzyplatformową z macOS i Linux za pomocą analogicznych interfejsów API dostępności, szybszej reakcji za pośrednictwem mniejszych LLM i ulepszonego rozumowania z dedykowanych zestawów danych interakcji GUI. Ale nawet w obecnym stanie UFO2 reprezentuje Nowa linia bazowa do automatyzacji komputerów stacjonarnych. Jest to open source, już przewyższa systemy komercyjne, i wprowadza nowy poziom modułowości, niezawodności i inteligencji interakcji człowieka-komputer.
Dla każdego, kto buduje następną generację inteligentnych agentów – lub po prostu zmęczeni kruchymi skryptami –UFO2 jest dostępny na github wraz z dokumentacją.
Polecane wizerunki