Badania Bloomberg: Rag LLM mogą być mniej bezpieczne niż myślisz

Pokolenie odzyskania lub szmatki zostało okrzyknięte sposobem na uczynienie dużych modeli języków bardziej niezawodnymi poprzez uzasadnienie ich odpowiedzi w prawdziwych dokumentach. Logika brzmi szczelnie: daj modelową wiedzę, z której można czerpać zamiast polegać wyłącznie na własnych parametrach, a zmniejszasz halucynacje, dezinformację i ryzykowne wyniki. Ale nowy badanie sugeruje, że może się zdarzyć odwrotnie. Nawet najbezpieczniejsze modele, w połączeniu z bezpiecznymi dokumentami, stały się wyraźnie bardziej niebezpieczne podczas korzystania z Rag.

Naukowcy z Bloomberg AI, University of Maryland i Johns Hopkins przeprowadzili jedną z pierwszych analiz bezpieczeństwa systemów RAG. Ich ustalenia zwiększają wspólne założenia, które wielu programistów i użytkowników AI ma na celu wpływanie na zachowanie modelu. W jedenastu popularnych LLM Rag często wprowadzał nowe luki, tworząc niebezpieczne odpowiedzi, które wcześniej nie istniały.

Pobieranie nie chroniło modeli

W teście ponad 5000 szkodliwych podpowiedzi osiem z jedenastu modeli wykazało wyższy wskaźnik niebezpiecznych odpowiedzi po aktywowaniu Rag. Bezpieczne zachowanie w warunkach innych niż RAG nie przewidywało bezpiecznego zachowania w Rag. Badanie dostarczyło konkretnego przykładu: LAMA-3-8B, model, który wytworzył tylko niebezpieczne wyniki 0,3 procent czasu w standardowym ustawieniu, przyczyniło się do 9,2 procent, gdy użyto RAG.

Ogólny odsetek niebezpiecznych odpowiedzi wzrósł nie tylko, ale modele rozszerzyły również swoje luki w nowych kategoriach ryzyka. Wcześniej zawierały słabości w obszarach takich jak nieautoryzowana praktyka prawa lub złośliwe wytyczne, rozpowszechnione na szersze kategorie, w tym treści dorosłych, dezinformacyjne i kampanie polityczne. Rag, zamiast zawężać ryzyko, poszerzył go.

Trzy powody, dla których Rag może cofnąć się

Naukowcy śledzili to nieoczekiwane niebezpieczeństwo dla trzech czynników blokujących:

LLM BEZPIECZEŃSTWA BEZPIECZEŃSTWA: Modele, które były mniej bezpieczne na początek, doznały największego pogorszenia w ustawieniach szmaty.
Bezpieczeństwo dokumentów: Nawet po pobraniu dokumentów zostały sklasyfikowane jako bezpieczne, modele nadal generowały szkodliwe treści.
RAG ODZIAŁA: Sposób, w jaki model obsługiwany łączenie dokumentów zewnętrznych z wiedzą wewnętrzną głęboko wpływa na wyniki.

Pojawiło się to, że po prostu połączenie bezpiecznego modelu z bezpiecznymi dokumentami nie jest gwarancją bezpiecznych odpowiedzi. Mechanizmy, które sprawiają, że szmata są atrakcyjne, takie jak synteza kontekstowa i odpowiadanie na dokumenty, otwierają również nowe ścieżki niewłaściwego użycia i błędnej interpretacji.

Dwa główne zachowania wyróżniały się, gdy naukowcy analizowali niebezpieczne wyniki wynikające z bezpiecznych dokumentów. Po pierwsze, modele często przekształcały nieszkodliwe informacje na niebezpieczne porady. Na przykład wpis w Wikipedii o tym, jak policja używa śledzących GPS, w rękach modelu, samouczkiem dla przestępców podczas uchylania się schwytania.

Po drugie, nawet po poinstruowaniu polegania wyłącznie na dokumentach, modele czasami mieszały się w wiedzy wewnętrznej. To połączenie pamięci i wyszukiwania podważyło, że Rag zabezpieczeń miało zapewnić. Nawet gdy dokumenty zewnętrzne były neutralne lub łagodne, wewnętrzna niebezpieczna wiedza pojawiła się w sposób, w jaki dokładne dostrajanie wcześniej stłumiło się w warunkach innych niż RAG.

Dodanie więcej odzyskanych dokumentów tylko pogorszyło problem. Eksperymenty wykazały, że zwiększenie liczby dokumentów kontekstowych sprawiło, że LLM częściej odpowiedzieli na niebezpieczne pytania, nie mniej. Jeden bezpieczny dokument był często wystarczający, aby zacząć zmieniać profil ryzyka modelu.

Nie wszystkie modele zajmowały się szmatą w równym stopniu. Sonet Claude 3.5Na przykład pozostał niezwykle odporny, wykazując bardzo niskie niebezpieczne wskaźniki odpowiedzi nawet pod ciśnieniem szmatowym. Gemma 7b na pierwszy rzut oka wydawała się bezpieczna, ale głębsza analiza ujawniła, że często po prostu odmawiała odpowiedzi na pytania. Słabe umiejętności ekstrakcji i podsumowania maskowały luki, a nie ich naprawianie.

Ogólnie rzecz biorąc, modele, które działały lepiej w autentycznych zadaniach Rag, takich jak podsumowanie i ekstrakcja, były paradoksalnie bardziej wrażliwe. Ich zdolność do syntezy z dokumentów ułatwiła im niezadowolenie nieszkodliwe fakty do niebezpiecznych treści, gdy temat był wrażliwy.

Pęknięcia bezpieczeństwa rozszerzyły się jeszcze, gdy naukowcy przetestowali istniejące metody zespołu czerwonego zaprojektowane do LLM Jailbreak. Techniki takie jak GCG i Autodan, które działają dobrze w przypadku modeli standardowych, w dużej mierze nie przeniosły ich sukcesu podczas celowania w konfiguracje RAG.

Jednym z największych wyzwań było to, że podpowiedzi przeciwne zoptymalizowane pod kątem skuteczności modelu niezwiązanego z RAG, gdy dokumenty zostały wstrzyknięte do kontekstu. Nawet przekwalifikowanie podpowiedzi przeciwnych specjalnie pod kątem RAG poprawiło wyniki tylko nieznacznie. Zmiana dokumentów pobieranych za każdym razem tworzyła niestabilność, co utrudnia tradycyjne strategie jailbreak konsekwentnie.

Ta luka pokazuje, że narzędzia i oceny bezpieczeństwa AI zbudowane dla modeli podstawowych nie wystarczą. Potrzebne będzie dedykowane specyficzne dla RAG specyficzne dla RAG, jeśli programiści chcą bezpiecznie wdrożyć systemy wzmocnione odzyskiwaniem na skalę.

Pobieranie nie jest kocem bezpieczeństwa

W miarę jak firmy coraz częściej zmierzają w kierunku architektur rag duży model języka Zastosowania, wyniki tej gruntu badań jako wyraźne ostrzeżenie. Pobranie pomaga zmniejszyć halucynacje i poprawić faktyczność, ale nie przekłada się automatycznie na bezpieczniejsze wyjścia. Co gorsza, wprowadza nowe warstwy ryzyka, do których tradycyjne interwencje bezpieczeństwa nie zostały zaprojektowane.

Na wynos jest jasne: programiści LLM nie mogą założyć, że przykręcenie wyszukiwania sprawi, że modele będzie bezpieczniejsze. Drobne dostrajanie musi być wyraźnie dostosowane do przepływów roboczych szmatowych. Czerwony zespół musi uwzględniać dynamizm kontekstowy. Monitorowanie musi traktować samą warstwę pobierania jako potencjalny wektor ataku, a nie tylko pasywny wkład.

Bez obrony specyficznej dla szmaty same techniki zaprojektowane do modeli języka gruntowego w prawdzie mogą zamiast tego stworzyć nowe luki. Jeśli branża nie rozwiązuje tych luk szybko, następna generacja wdrożeń LLM może odziedziczyć głębsze ryzyko ukryte pod pocieszającą etykietą odzyskiwania.

Polecane wizerunki