Głębokie sieci neuronowe (DNNS) zwiększyły niezwykłe postępy w przetwarzaniu języka naturalnego (NLP), zasilając aplikacje, takie jak Chatgpt i automatyczne systemy moderacji treści. Jednak podatność tych modeli na ataki przeciwne pozostaje palącym problemem. W przeciwieństwie do obrazów, w których niewielkie modyfikacje są często niezauważalne, tekst działa w dyskretnej przestrzeni, dzięki czemu nawet małe zmiany są zauważalne dla ludzkich czytelników. Stanowi to wyzwanie dla ataków przeciwnych, które tradycyjnie polegają na modyfikowaniu słów, znaków lub całych zdaniach w celu manipulowania wyjściami modelu NLP.
Ostatnie badanie zatytułowane „Emoti-attack: zero pertururbacji przeciwne ataki na systemy NLP za pośrednictwem sekwencji emoji”Prowadzony przez Yangshijie Zhang z Uniwersytetu Lanzhou wprowadza niekonwencjonalną metodę ataku: Emotek. Ta technika wykorzystuje Sekwencje emoji Aby manipulować systemami NLP bez zmiany podstawowego tekstu, osiągając to, co badacze nazywają Atak przeciwny zerowej perturbacji. Badanie pokazuje, że strategicznie umieszczone emoji mogą oszukać nawet najnowocześniejsze modele dużych języków (LLM) GPT-4O, Sonet Claude 3.5 i LAMA-3.1-70Bujawniając ukrytą podatność w rozumieniu języka przez AI.
Ukryta moc emoji w atakach NLP
Tradycyjne ataki przeciwne modyfikują słowa lub znaki, aby zmienić interpretację tekstu przez model AI. Jednak takie zmiany często wywołują mechanizmy wykrywania lub sprawiają, że tekst brzmi nienaturalnie. Emotek przyjmuje inne podejście: zamiast zmieniać słowa, wprowadza Sekwencje emoji Przed i po wyroku. Dodatki te subtelnie wpływają na to, jak modele NLP interpretują tekst, bez zakłócania jego czytelności dla ludzi.
Rozważmy na przykład system analizy sentymentów, który klasyfikuje recenzje klientów jako pozytywne lub negatywne. Dodanie pewnych emoji na początku lub na końcu zdania może skłonić AI w kierunku innej klasyfikacji. Prosta uśmiechnięta twarz lub emoji ognia mogą sprawić, że neutralna recenzja wydaje się pozytywna, a płacząca twarz może popchnąć ją w kierunku negatywności. Ponieważ emoji są często traktowane jako oddzielne tokeny w modelach NLP, powodują nieoczekiwane przesunięcia wewnętrznego rozumowania modelu.
Czy wielojęzyczne modele AI myślą w języku angielskim?
Jak działa emocja
Badacze zaprojektowali Ramy ataku zero-word-pertururbacjęco oznacza, że podstawowy tekst pozostaje niezmieniony, podczas gdy atak manipuluje podejmowaniem decyzji przez AI poprzez emoji. Proces obejmuje:
- Konstruowanie przestrzeni sekwencji emoji: Metoda ataku wybiera z puli emoji Unicode (😊🔥💔) i emotikonów ASCII (:-);-P QAQ). Sekwencje te zostały zaprojektowane tak, aby subtelnie wpływać na prognozy modelu.
- Osadzanie konsekwencji emocjonalnej: Aby utrzymać ukrycie, sekwencje emoji są zgodne z sentymentem oryginalnego tekstu, zapewniając, że nie wydają się nie na miejscu.
- Strategiczne umiejscowienie emoji: Emoji są umieszczane przed i po Tekst docelowy, tworząc zaburzenia, które przesuwają zachowanie modelu bez podnoszenia podejrzeń.
Używając Optymalizacja oparta na logitatak określa, które kombinacje emoji najprawdopodobniej wpłyną na decyzję AI przy jednoczesnym zachowaniu spójności.
Modele NLP są bardzo wrażliwe
Aby przetestować emocję, naukowcy przeprowadzili eksperymenty na dwóch zestawach danych porównawczych: Idź emocjezestaw danych z drobnoziarnistymi etykietami emocjonalnymi i Tweet emojizbiór tweetów zawierających różne emoji i markery sentymentów. Atak został przetestowany na dwóch tradycyjnych modelach NLP (Bert i Roberta) i pięć Duże modele językowe (LLM): QWEN2.5-7B-instruct, LAMA3-8B-Instruct, GPT-4O, Claude 3.5 Sonnet i Gemini-Exp-1206.
Wskaźniki sukcesu ataku (ASR) w różnych modelach
Badanie mierzyło Wskaźnik sukcesu ataku (ASR)– Jak często model zmieniał swoją klasyfikację, gdy dodano emoji. Wyniki były uderzające. Tradycyjne modele takie jak Bert i Roberta wykazali stawki ASR nawet 96%udowadniając, że nawet solidne klasyfikatory NLP można oszukać przy minimalnym wysiłku. Duże modele językowe (LLM) również wykazywały wysoką podatność GPT-4O manipulował 79% przypadków I Claude 3,5 Sonet na 82%. Najbardziej wrażliwy był model QWen2.5-7b-instruct, z 95% ASR na zestawie danych emoji tweetów. To pokazuje, że nawet najbardziej zaawansowane systemy AI walczą o odfiltrowanie manipulacji przeciwnej, gdy zaangażowane są emoji.
Dlaczego modele AI są tak łatwo oszukane przez emoji?
Modele AI są szczególnie podatne na ataki oparte na emoji z powodu problemów z tokenizacją, dwuznaczności semantyczną, stronniczością danych i nadmiernego zależności od wskazówek kontekstowych. Większość modeli NLP traktuje emoji jako oddzielne tokeny, pomijając wzorce językowe, które normalnie filtrowałyby wpływ przeciwny. Ponadto emoji mają subiektywne znaczenie – „ogień” emoji (🔥) może wskazywać na emocje w jednym kontekście, ale niebezpieczeństwo w innym. Ta dwuznaczność sprawia, że modele NLP są podatne na ukierunkowane ataki oparte na emoji.
Wiele LLM jest szkolonych pod względem tekstu internetowego, w którym emoji często kształtują sentymenty. Atakujący mogą wykorzystać to uprzedzenie, używając emoji w sposób, którego AI nauczyła się kojarzyć z określonymi emocjami lub znaczeniami. Ponieważ emoji często pojawiają się obok nieformalnego języka, modele AI nadwagę nadważy ich znaczenie, co czyni je łatwym celem manipulacji.
Wyniki tego badania budzą poważne obawy dotyczące bezpieczeństwa i niezawodności modeli AI, szczególnie w aplikacjach o wysokich stawkach. W Moderacja treściatakujący mogą ominąć filtry, dodając nieszkodliwe emoji, aby uniknąć wykrycia. W Zautomatyzowana obsługa klientaSystemy analizy sentymentów można oszukać w błędnej interpretacji skarg jako pozytywnej informacji zwrotnej, co prowadzi do fałszywych analizy. Podobnie, Ataki przeciwne oparte na emoji mogą być uzbrojeni w celu rozpowszechniania manipulowanych wiadomości lub stronniczych interpretacji treści. Te luki podkreślają pilna potrzeba lepszej obrony przed atakami przeciwnikowymizwłaszcza, że AI nadal odgrywa kluczową rolę w systemach decyzyjnych.
Czy AI może zostać przeszkolone do obrony przed emocjami?
Naukowcy proponują kilka środków zaradczych w celu złagodzenia ataków przeciwnych opartych na emoji. Modele NLP powinny być szkolone z jawnymi Dane przeciwników emoji rozpoznać próby manipulacji. AI powinna analizować Pełne interakcje z tekstem zamiast traktować emoji jako izolowane tokeny. Realizowanie Filtrowanie emoji lub normalizacja może zmniejszyć opartą na AI na sygnałach przeciwnych. W środowiskach o wysokich stawkach, Weryfikacja ludzka powinna uzupełnić podejmowanie decyzji AI.
Niewielkie emoji, duże zagrożenie
Badanie przeprowadzone przez Yangshijie Zhang i współpracowników z Lanzhou University podkreśla A Krytyczne martwe pola w AI Security. Podczas gdy emoji są często odrzucane jako zabawne cyfrowe dekoracje, pozują Poważne zagrożenie przeciwne do modeli NLP. Emotek pokazuje to Nawet najbardziej zaawansowane modele AI nie są odporne do subtelnych technik manipulacji.
Wyróżniony obraz obrazu: Domingo Alvarez E/Unsplash