Agenci AI mogą być kontrolowane przez złośliwe polecenia ukryte na obrazach

Badanie 2025 z University of Oxford ujawniło podatność na bezpieczeństwo w agentach AI, które powinny być szeroko stosowane w ciągu dwóch lat. W przeciwieństwie do chatbotów agenci ci mogą podejmować bezpośrednie działania na komputerze użytkownika, takie jak otwieranie kart lub wypełnianie formularzy. Badania pokazują, w jaki sposób atakujący mogą osadzić niewidzialne polecenia na obrazach, aby przejąć kontrolę nad tymi agentami.

Jak działa atak oparty na obrazie

Naukowcy wykazali, że dokonując subtelnych zmian w pikselach na obrazie – takie jak tapeta na komputery stacjonarne, reklama online lub post w mediach społecznościowych – mogli osadzić złośliwe polecenia. Chociaż zmiany te są niewidoczne dla ludzkiego oka, agent AI może interpretować je jako instrukcje. W badaniu zastosowano tapetę „Taylor Swift” jako przykład. Pojedynczy manipulowany obraz mógłby dowodzić uruchomionym agentem AI, aby przesyłać obraz w mediach społecznościowych, a następnie wysłać hasła użytkownika do atakującego. Atak dotyka jedynie użytkowników, którzy mają aktywny agenta AI na swoim komputerze.

Dlaczego tapety są skutecznym wektorem ataku?

Agenci AI pracują, wielokrotnie robiąc zrzuty ekranu pulpitu użytkownika, aby zrozumieć, co jest na ekranie i zidentyfikować elementy, z którymi można interakcja. Ponieważ na tych zrzutach ekranu jest zawsze obecna tapeta na komputery stacjonarne, służy jako trwałe metodę dostarczania złośliwego polecenia. Naukowcy odkryli, że te ukryte polecenia są również odporne na wspólne zmiany obrazu, takie jak rozmiar i kompresja. Modele AI open source są szczególnie wrażliwe, ponieważ atakujący mogą zbadać swój kod, aby dowiedzieć się, w jaki sposób przetwarzają informacje wizualne. Pozwala im to na projektowanie wzorów pikseli, które model niezawodnie interpretuje jako polecenie. Podatność pozwala atakującym na połączenie wielu poleceń. Początkowy złośliwy obraz może poinstruować agenta, aby przeszedł na stronę internetową, która może zorganizować drugi złośliwy obraz. Ten drugi obraz może następnie wywołać kolejną akcję, tworząc sekwencję, która pozwala na bardziej złożone ataki.

Co można zrobić?

Naukowcy mają nadzieję, że ich odkrycia zmusą programistów do budowania środków bezpieczeństwa, zanim agenci AI staną się powszechni. Potencjalne obrony obejmują przekwalifikowanie modeli zignorowania tego rodzaju manipulowanych obrazów lub dodawanie warstw bezpieczeństwa, które uniemożliwiają agentom działanie na ekranie.

Ludzie spieszą się, by wdrożyć technologię, zanim jej bezpieczeństwo zostanie w pełni zrozumiane.

Yarin Gal, profesor Oksfordu i współautor badania, wyraził obawy, że szybkie wdrażanie technologii agentów przewyższa badania bezpieczeństwa. Autorzy stwierdzili, że nawet firmy z modelami zamkniętymi nie są odporne, ponieważ atak wykorzystuje podstawowe zachowania modelowe, których nie można chronić po prostu poprzez utrzymanie prywatności kodu.

Polecane wizerunki