Twój chatbot AI może ujawnić Twoje sekrety

Nie owijajmy w bawełnę: za każdym razem, gdy rozmawiasz z modelem językowym, narażasz swoje dane osobowe na ryzyko. Ale według A PRZEWODOWY artykuł, stało się to o wiele bardziej ryzykowne. Grupa badaczy z Uniwersytetu Kalifornijskiego w San Diego (UCSD) i Uniwersytetu Technologicznego Nanyang w Singapurze odkryła nowy atak, który może zamienić Twoją swobodną rozmowę w skarbnicę hakerów.

Poznaj Impromptera

Ten nowy atak, złowieszczo nazwany Imprompter, nie tylko przegląda Twoje wiadomości — wkrada się, wycina wszystko, od Twojego imienia i nazwiska po szczegóły płatności, i wysyła bezpośrednio do hakera, nawet tego nie zauważając. Jak? Ukrywając złośliwe instrukcje jako bełkot, który wygląda nieszkodliwie dla ludzkich oczu, ale działa jak latarnia naprowadzająca dla wrażliwych danych. Pomyśl o tym jak o znacznie bardziej przebiegłym kuzynie złośliwego oprogramowania.

Według PRZEWODOWYbadaczom udało się przetestować ten atak na dwóch głównych modelach językowych — LeChat autorstwa AI Mistrala i ChatGLM z Chin — i odkryły, że potrafią wyodrębnić dane osobowe ze skutecznością prawie 80%. To nie tylko usterka; jest to pełna luka.

Twój chatbot AI może ujawnić Twoje sekrety — Imprompter działa poprzez przekształcanie prostych instrukcji w języku angielskim w nieczytelny ciąg losowych znaków

Jak działa Imprompter?

Imprompter działa poprzez przekształcanie prostych instrukcji w języku angielskim w nieczytelny ciąg losowych znaków, który nakazuje sztucznej inteligencji wyszukanie Twoich danych osobowych. Następnie przemyca te dane z powrotem na serwer atakującego, spakowane w adresie URL i ukryte za przezroczystym pikselem 1×1 – całkowicie niewidoczne dla Ciebie.

Jak ujął to Xiaohan Fu, główny autor badania: „Ukrywamy cel ataku na widoku”. Sztuczna inteligencja reaguje na ukryte monity, nie informując użytkownika o tym. To jakby dać włamywaczowi kod do skarbca bankowego, nie zdając sobie sprawy, że nawet otworzyłeś usta.

Nie udawajmy, że jest to odosobniony problem. Odkąd na scenie pojawił się ChatGPT OpenAI, wyścig w wykorzystywaniu luk w systemach AI był nieubłagany. Od jailbreaków po natychmiastowe zastrzyki – hakerzy są zawsze o krok do przodu i znajdują sposoby na oszukanie sztucznej inteligencji w celu ujawnienia poufnych informacji. Imprompter to najnowsza broń w ich arsenale – i niestety jest szczególnie skuteczna.

Sztuczna inteligencja Mistral powiedziała WIRED, że już naprawiła tę lukę, a badacze potwierdzili, że firma wyłączyła funkcję czatu, która umożliwiła wykorzystanie exploita. Ale nawet po zastosowaniu tej szybkiej poprawki pozostaje szersze pytanie: jak naprawdę bezpieczne są te systemy?

Sztuczna inteligencja słucha i uczy się

Eksperci ds. bezpieczeństwa, tacy jak Dan McInerney z Protect AI, machają czerwoną flagą. Zwraca uwagę, że w miarę większego włączania agentów AI w codzienne zadania, takie jak rezerwacja lotów czy uzyskiwanie dostępu do zewnętrznych baz danych, zakres tych ataków będzie tylko rosnąć. „Zwolnienie agenta LLM, który akceptuje dowolne dane wejściowe użytkownika, należy uznać za działanie wysokiego ryzyka” – ostrzega McInerney. Innymi słowy, im więcej swobody dajemy sztucznej inteligencji do działania w naszym imieniu, tym większe ryzyko związane z bezpieczeństwem.

Za każdym razem, gdy rozmawiasz z modelem językowym, uczy się on czegoś o Tobie. Jasne, pomaga to udoskonalić odpowiedzi, ale co się stanie, gdy system zostanie oszukany i wykorzysta te dane jako broń? Ataki takie jak Imprompter uwypuklają rażącą słabość świata sztucznej inteligencji — modele te są zaprojektowane tak, aby postępować zgodnie z instrukcjami, bez zadawania pytań. Złośliwi aktorzy bardzo łatwo wkradają się niezauważeni i przechwytują rozmowę, nie podnosząc przy tym czerwonej flagi.

Musimy przestać pytać, czy sztuczna inteligencja jest wygodna, a zacząć pytać, czy jest bezpieczna. Ponieważ obecnie największą słabością sztucznej inteligencji nie jest brak innowacji.

Jak Architects ujęli to doskonale w swojej piosence: „Daliśmy wampirom klucze do banku krwi”.

Kredyty obrazkowe: Kerem Gülen/Midjourney