Niedawne badanie Z Zurychu Uniwersytetu Nauk Stosowanych Pascala J. Sagera, Benjamina Meyera, Peng Yan, Rebekka von Wartburg-Kottler, Layan Etaiwi, Aref Enayati, Gabriel Nobel, Ahmed Abdulkadir, Benjamin F. Grewe i Thilo Stodelmann. Wyrósł ich fazę chatbota.
Agenci AI uruchamiają program, klikają, przewijają i wpisują przepływy pracy z niesamowitą precyzją. Te oparte na instrukcji agenci sterowania komputerami (CCA) mogą wykonywać polecenia, wchodząc w interakcje z środowiskami cyfrowymi, takimi jak doświadczeni operatorzy. Ale gdy zbliżają się do pełnej autonomii, jedno staje się jasne: im więcej mocy dajemy im, tym trudniej jest zachować ich kontrolę.
Jak agenci AI uczą się korzystania z komputerów takich jak ty
Tradycyjne narzędzia do automatyzacji to uwielbione makra – powtórzone, sztywne i nieświadome poza ich skryptowymi ścieżkami. Z drugiej strony CCA są zbudowane w celu improwizacji. Nie tylko przestrzegają instrukcji; Obserwują, interpretują i działają na podstawie tego, co „widzą” na ekranie, dzięki modele w języku wizji (VLM) i dużych modelach językowych (LLM). To pozwala im:
- Przeczytaj ekrany jak człowiekidentyfikacja tekstu, przycisków i pola wejściowego bez predefiniowanych współrzędnych.
- Wykonaj wieloetapowe zadaniaJak otwarcie wiadomości e -mail, kopiowanie danych, wklejenie go do arkusza kalkulacyjnego i uderzenie Wysłanie – wszystko bez bezpośredniego nadzoru.
- Zrozum instrukcje języka naturalnegoUsunięcie potrzeby uczenia się użytkowników złożonych skryptów automatyzacji.
- Dostosuj się do zmieniających się interfejsówczyniąc je znacznie bardziej elastycznymi niż narzędzia automatyzacji oparte na regułach.
Powiedz CCA, aby „Znajdź najwyższe kierunki sprzedaży i wysłać je e-mailem” i przechodzi przez aplikacje, wyodrębnia odpowiednie dane, komponuje wiadomość e-mail i wysyła ją, podobnie jak asystent ludzki. W przeciwieństwie do Old School RPA (automatyzacja procesu robotycznego), która rozpada się, gdy zmienia się interfejs użytkownika, CCA może dostosowywać się w czasie rzeczywistym, identyfikując elementy wizualne i podejmując decyzje w locie.
Następna granica? Integracja z repozytoriami wiedzy opartymi na chmurze i autonomicznym podejmowaniem decyzji. Im bardziej uczą się ci agenci, tym bardziej wyrafinowani stają się ich możliwości – wcalenia pytań o to, ile zaufania powinniśmy w nich postawić.
Jak duże modele językowe przekształcają wzajemną ocenę
Korzyści: wydajność, dostępność i automatyzacja
Nie można zaprzeczyć, że CCA mają poważne zalety:
- Wydajność na sterydach: Nudne, czasochłonne zadania znikają, umożliwiając pracownikom skupienie się na decyzjach o wyższej wartości, zamiast kliknąć pulpity nawigacyjne.
- Rewolucja dostępności: Osoby niepełnosprawne mogą bezproblemowo wchodzić w interakcje z technologią poprzez nawigację i automatyzację zadań.
- Skalowalność całego przedsiębiorstwa: Firmy mogą zautomatyzować całe przepływy pracy bez zatrudniania armii specjalistów IT do budowania niestandardowych rozwiązań.
- Integracja całego systemu: CCA pracują na różnych platformach i aplikacjach, zapewniając bezproblemowe interakcje cyfrowe.
- Zawsze wydajność: W przeciwieństwie do ludzkich pracowników ci agenci nie męczą się, nie rozpraszają ani nie robią przerw na lunch.
Ryzyko: prywatność, bezpieczeństwo i zaufanie
W przypadku każdej wygranej produktywności w tle czai się równy i przeciwny koszmar bezpieczeństwa. Zapewnienie kontroli sztucznej inteligencji nad interfejsami użytkowników nie jest tylko automatyzacją – zapewnia nieuchwytny dostęp do poufnych przepływów pracy, transakcji finansowych i danych prywatnych. I właśnie tam sprawy się komplikują.
CCA działa poprzez „oglądanie” ekranów i analizę tekstu. Kto zapewnia, że poufne informacje nie są niewłaściwie wykorzystywane lub rejestrowane? Kto utrzymuje klawisze kierowane przez AI w kontrolie?
Jeśli agent AI może zalogować się do aplikacji bankowej i przenieść pieniądze za pomocą jednego polecenia, co się stanie, jeśli zostanie zhakowane? Przekazujemy klucze cyfrowe królestwu z kilkoma zabezpieczeniami. Jeśli CCA popełnia katastroficzny błąd – wyznacza niewłaściwy plik, wysyła niewłaściwy e -mail lub zatwierdza katastrofalną transakcję – która jest odpowiedzialna? Ludzie mogą być zwolnieni, ukarani grzywną lub szkolone. AI? Nie tyle.
A jeśli złośliwy aktor porywa CCA, nie ma tylko dostępu – otrzymują niestrudzoną, zautomatyzowaną wspólnik, który może napisać spustoszenie na dużą skalę. Prawodawcy starają się nadążyć, ale nie ma podręcznika dla asystentów cyfrowych kierowanych przez AI w podejmowaniu decyzji o wysokich stawkach w czasie rzeczywistym.
Co dalej?
Firmy poruszają się ostrożnie, starając się zrównoważyć niezaprzeczalne korzyści z wydajności wraz z zbliżającym się ryzykiem. Niektóre firmy egzekwują modele „ludzkie w pętli”, w których agenci AI zajmują się wykonaniem, ale wymagają ręcznego zatwierdzenia działań krytycznych. Inni inwestują w polityki zarządzania AI, aby stworzyć zabezpieczenia, zanim agenci stają się standardem w operacjach przedsiębiorstwa.
Pewne jest to, że CCA nie są przelotnym trendem – są kolejną fazą ewolucji AI, po cichu wcielając się w przepływy pracy i interfejsy wszędzie. Ponieważ stają się bardziej zdolne, debata nie dotyczy tego, czy powinniśmy z nich korzystać, ale w jaki sposób możemy je kontrolować.
Obrazy: Kerem Gülen/Midjourney