Badania Microsoftu wydany Fara-7B, agentyczny model małego języka o 7 miliardach parametrów do użytku komputerowego, zdolny do lokalnego wykonywania zadań na podstawie zrzutów ekranu. Fara-7B działa jako lekki agent obsługi komputera, przewidujący działania myszy i klawiatury bezpośrednio na podstawie zrzutów ekranu. Jego kompaktowy rozmiar umożliwia wykonanie na jednym urządzeniu użytkownika, co zmniejsza opóźnienia i lokalnie zachowuje dane przeglądania. W przeciwieństwie do konwencjonalnych modeli wielkojęzycznych generujących tekst (LLM), programy komputerowe, takie jak Fara-7B, kontrolują interfejsy przeglądarki lub pulpitu w celu wykonywania zadań, takich jak wypełnianie formularzy, rezerwacja podróży lub porównywanie cen. Interpretują ekran, analizują układ strony, a następnie wykonują działania niskiego poziomu, w tym kliknięcia, przewinięcia, typy, wyszukiwania w Internecie lub wizyty pod adresem URL. Wiele obecnych systemów wykorzystuje duże modele multimodalne zintegrowane ze złożonym rusztowaniem, które analizuje drzewa dostępności i koordynuje różne narzędzia. Zwiększa to opóźnienia i często wymaga wdrożenia po stronie serwera. Fara-7B skupia funkcjonalność takich systemów wieloagentowych w jednym modelu obsługującym wyłącznie dekoder multimodalny, zbudowanym na bazie Qwen2.5-VL-7B. Przetwarza zrzuty ekranu przeglądarki i kontekst tekstowy, a następnie generuje tekst myślowy, po którym następuje wywołanie narzędzia z konkretnymi argumentami, takimi jak współrzędne, tekst lub adresy URL. Głównym ograniczeniem dla agentów korzystających z komputera są dane, ponieważ wysokiej jakości dzienniki wieloetapowych interakcji między ludźmi w sieci są rzadkie, a ich uzyskanie jest kosztowne. Projekt Fara wprowadza FaraGen, silnik danych syntetycznych, który generuje i filtruje trajektorie internetowe w działających witrynach. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/fara_xbox_multi_turn-3.mp4
Wideo: Microsoft
FaraGen wykorzystuje trzystopniowy rurociąg. Propozycja zadania zaczyna się od początkowych adresów URL z korpusów publicznych, takich jak ClueWeb22 i Tranco, podzielonych na domeny takie jak handel elektroniczny, podróże, rozrywka lub fora. Duże modele językowe przekształcają każdy adres URL w realistyczne zadania użytkownika, na przykład rezerwację określonych biletów do kina lub utworzenie listy zakupów z ograniczeniami dotyczącymi recenzji i materiałów. Zadania muszą być możliwe do wykonania bez logowania lub paywalla, w pełni określone, użyteczne i automatycznie weryfikowalne.
Rozwiązywanie zadań wykorzystuje system wieloagentowy oparty na Magentic-One i Magentic-UI. Agent Orchestrator planuje strategię wysokiego poziomu i utrzymuje stan zadania. Agent WebSurfer otrzymuje drzewa dostępności i zrzuty ekranu z zestawami znaków, a następnie wykonuje działania przeglądarki za pośrednictwem Playwright, w tym kliknięcie, wpisanie, przewinięcie, adres_wizyty lub wyszukiwanie_web. Agent UserSimulator zapewnia dalsze instrukcje dotyczące zadań wymagających wyjaśnienia.
Weryfikacja trajektorii wykorzystuje trzy weryfikatory oparte na LLM. Weryfikator dopasowania sprawdza, czy działania i ostateczne odpowiedzi są zgodne z intencją zadania. Weryfikator rubryk generuje rubrykę celów cząstkowych i ocenia częściową realizację. Weryfikator multimodalny sprawdza zrzuty ekranu i ostateczną odpowiedź, aby wykryć halucynacje i potwierdzić, że widoczne dowody potwierdzają sukces. Weryfikatorzy ci wykazują zgodność z etykietami ludzkimi 83,3 proc przypadków, przy czym zgłoszony odsetek wyników fałszywie dodatnich i fałszywie ujemnych wynosi około 17–18%. Po przefiltrowaniu produkuje FaraGen 145 603 trajektorii z 1 010 797 kroków przez 70 117 unikalnych domen. Trajektorie wahają się od 3 do 84 kroków, średnio 6,9 kroków i około 0,5 unikalnych domen na trajektorię, co wskazuje, że zadania często obejmują witryny nieobecne gdzie indziej w zbiorze danych. Generowanie danych za pomocą modeli premium, takich jak GPT-5 i o3, kosztuje w przybliżeniu 1 USD za zweryfikowaną trajektorię. Fara-7B to model obsługujący wyłącznie dekoder multimodalny, wykorzystujący jako podstawę Qwen2.5-VL-7B. Przetwarza cel użytkownika, aktualne zrzuty ekranu przeglądarki oraz pełną historię wcześniejszych myśli i działań. Okno kontekstowe obsługuje 128 000 tokenów. Na każdym etapie model najpierw generuje łańcuch myślowy szczegółowo opisujący bieżący stan i plan, a następnie generuje wywołanie narzędzia określające następną akcję i jej argumenty. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/driving_directions_cheese-1_revised.mp4
Wideo: Microsoft
Przestrzeń narzędzi jest zgodna z interfejsem obsługi komputera Magentic-UI i obejmuje klawisz, typ, ruch_myszą, kliknięcie lewym przyciskiem, przewijanie, adres_url_wizyty, wyszukiwanie_w sieci, powrót do historii, pauzę_i_zapamiętywanie_faktu, oczekiwanie i kończenie. Współrzędne są przewidywane bezpośrednio jako pozycje pikseli na zrzucie ekranu, dzięki czemu model może działać bez dostępu do drzewa dostępności podczas wnioskowania. Szkolenie obejmowało nadzorowane dostrajanie przez około 1,8 miliona próbekmieszając wiele źródeł danych. Należą do nich trajektorie FaraGen podzielone na etapy „obserwuj, myśl, działaj”, zadania uziemienia i lokalizacji interfejsu użytkownika, wizualne odpowiadanie na pytania i podpisy na podstawie zrzutów ekranu, a także zbiory danych dotyczące bezpieczeństwa i odmowy. Firma Microsoft przeprowadziła oceny Fara-7B w czterech bieżących internetowych testach porównawczych: WebVoyager, Online-Mind2Web, DeepShop i nowy WebTailBench. WebTailBench koncentruje się na niedostatecznie reprezentowanych segmentach, takich jak rezerwacje w restauracjach, podania o pracę, wyszukiwanie nieruchomości, porównywarki cen i zadania związane z kompozycją w wielu lokalizacjach. W tych testach Fara-7B osiągnęła wynik 73,5 procent sukcesu w WebVoyager, 34,1 procent w Online-Mind2Web, 26,2 procent w DeepShopI 38,4 procent w WebTailBench. To przewyższa bazowy wynik UI-TARS-1.5-7B dla agenta użycia komputera 7B, który uzyskał odpowiednio 66,4, 31,3, 11,6 i 19,5, i wypada korzystnie w porównaniu z większymi systemami, takimi jak podgląd użycia komputera OpenAI i konfiguracje agenta SoM zbudowane na GPT-4o. Na platformie WebVoyager Fara-7B wykorzystuje średnio 124 000 tokenów wejściowych I 1100 żetonów wyjściowych na każde zadaniez około 16,5 akcji. Wykorzystując ceny tokenów rynkowych, zespół badawczy szacuje średni koszt 0,025 USD za zadaniew porównaniu do około 0,30 dolara za agentów SoM obsługiwanych przez zastrzeżone modele rozumowania, takie jak GPT-5 i o3. Fara-7B wykorzystuje podobną liczbę tokenów wejściowych, ale około jedną dziesiątą tokenów wyjściowych tych agentów SoM.
- Fara-7B: Parametr 7B, agent użycia komputera o otwartej wadze zbudowany na Qwen2.5-VL-7B.
- Działanie: Działa bezpośrednio na podstawie zrzutów ekranu i tekstu, generuje ugruntowane działania bez drzew dostępności w czasie wnioskowania.
- Dane treningowe: 145 603 zweryfikowanych trajektorii przeglądarki i 1 010 797 kroków wygenerowanych przez potok FaraGen w 70 117 domenach.
- Sukces w benchmarku (WebVoyager): 73,5 proc.
- Sukces testu porównawczego (Online-Mind2Web): 34,1 proc.
- Sukces w benchmarku (DeepShop): 26,2 proc.
- Sukces testu porównawczego (WebTailBench): 38,4 proc.
- Koszt w WebVoyager: Około 0,025 USD za zadanieużywając 124 000 tokenów wejściowych i 1100 tokenów wyjściowych.
- Wydajność tokena wyjściowego: Mniej więcej o rząd wielkości tańsze w użyciu tokeny wyjściowe niż agenci SoM wspierani przez modele klasy GPT-5.
Fara-7B stanowi postęp w kierunku praktycznych agentów obsługi komputera, zdolnych do obsługi lokalnego sprzętu przy obniżonych kosztach wnioskowania przy jednoczesnym zachowaniu prywatności. Integracja Qwen2.5-VL-7B, syntetycznych trajektorii FaraGen i WebTailBench zapewnia ścieżkę od generowania danych przez wielu agentów do pojedynczego, kompaktowego modelu, który dorównuje lub przewyższa większe systemy w kluczowych testach porównawczych, jednocześnie uwzględniając zabezpieczenia punktu krytycznego i odmowy.





