Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Badania Bloomberg: Rag LLM mogą być mniej bezpieczne niż myślisz

byKerem Gülen
28 kwietnia 2025
in Research
Home Research
Share on FacebookShare on Twitter

Pokolenie odzyskania lub szmatki zostało okrzyknięte sposobem na uczynienie dużych modeli języków bardziej niezawodnymi poprzez uzasadnienie ich odpowiedzi w prawdziwych dokumentach. Logika brzmi szczelnie: daj modelową wiedzę, z której można czerpać zamiast polegać wyłącznie na własnych parametrach, a zmniejszasz halucynacje, dezinformację i ryzykowne wyniki. Ale nowy badanie sugeruje, że może się zdarzyć odwrotnie. Nawet najbezpieczniejsze modele, w połączeniu z bezpiecznymi dokumentami, stały się wyraźnie bardziej niebezpieczne podczas korzystania z Rag.

Naukowcy z Bloomberg AI, University of Maryland i Johns Hopkins przeprowadzili jedną z pierwszych analiz bezpieczeństwa systemów RAG. Ich ustalenia zwiększają wspólne założenia, które wielu programistów i użytkowników AI ma na celu wpływanie na zachowanie modelu. W jedenastu popularnych LLM Rag często wprowadzał nowe luki, tworząc niebezpieczne odpowiedzi, które wcześniej nie istniały.

Pobieranie nie chroniło modeli

W teście ponad 5000 szkodliwych podpowiedzi osiem z jedenastu modeli wykazało wyższy wskaźnik niebezpiecznych odpowiedzi po aktywowaniu Rag. Bezpieczne zachowanie w warunkach innych niż RAG nie przewidywało bezpiecznego zachowania w Rag. Badanie dostarczyło konkretnego przykładu: LAMA-3-8B, model, który wytworzył tylko niebezpieczne wyniki 0,3 procent czasu w standardowym ustawieniu, przyczyniło się do 9,2 procent, gdy użyto RAG.

Ogólny odsetek niebezpiecznych odpowiedzi wzrósł nie tylko, ale modele rozszerzyły również swoje luki w nowych kategoriach ryzyka. Wcześniej zawierały słabości w obszarach takich jak nieautoryzowana praktyka prawa lub złośliwe wytyczne, rozpowszechnione na szersze kategorie, w tym treści dorosłych, dezinformacyjne i kampanie polityczne. Rag, zamiast zawężać ryzyko, poszerzył go.

Trzy powody, dla których Rag może cofnąć się

Naukowcy śledzili to nieoczekiwane niebezpieczeństwo dla trzech czynników blokujących:

  • LLM BEZPIECZEŃSTWA BEZPIECZEŃSTWA: Modele, które były mniej bezpieczne na początek, doznały największego pogorszenia w ustawieniach szmaty.
  • Bezpieczeństwo dokumentów: Nawet po pobraniu dokumentów zostały sklasyfikowane jako bezpieczne, modele nadal generowały szkodliwe treści.
  • RAG ODZIAŁA: Sposób, w jaki model obsługiwany łączenie dokumentów zewnętrznych z wiedzą wewnętrzną głęboko wpływa na wyniki.

Pojawiło się to, że po prostu połączenie bezpiecznego modelu z bezpiecznymi dokumentami nie jest gwarancją bezpiecznych odpowiedzi. Mechanizmy, które sprawiają, że szmata są atrakcyjne, takie jak synteza kontekstowa i odpowiadanie na dokumenty, otwierają również nowe ścieżki niewłaściwego użycia i błędnej interpretacji.

Dwa główne zachowania wyróżniały się, gdy naukowcy analizowali niebezpieczne wyniki wynikające z bezpiecznych dokumentów. Po pierwsze, modele często przekształcały nieszkodliwe informacje na niebezpieczne porady. Na przykład wpis w Wikipedii o tym, jak policja używa śledzących GPS, w rękach modelu, samouczkiem dla przestępców podczas uchylania się schwytania.

Po drugie, nawet po poinstruowaniu polegania wyłącznie na dokumentach, modele czasami mieszały się w wiedzy wewnętrznej. To połączenie pamięci i wyszukiwania podważyło, że Rag zabezpieczeń miało zapewnić. Nawet gdy dokumenty zewnętrzne były neutralne lub łagodne, wewnętrzna niebezpieczna wiedza pojawiła się w sposób, w jaki dokładne dostrajanie wcześniej stłumiło się w warunkach innych niż RAG.

Dodanie więcej odzyskanych dokumentów tylko pogorszyło problem. Eksperymenty wykazały, że zwiększenie liczby dokumentów kontekstowych sprawiło, że LLM częściej odpowiedzieli na niebezpieczne pytania, nie mniej. Jeden bezpieczny dokument był często wystarczający, aby zacząć zmieniać profil ryzyka modelu.

Nie wszystkie modele zajmowały się szmatą w równym stopniu. Sonet Claude 3.5Na przykład pozostał niezwykle odporny, wykazując bardzo niskie niebezpieczne wskaźniki odpowiedzi nawet pod ciśnieniem szmatowym. Gemma 7b na pierwszy rzut oka wydawała się bezpieczna, ale głębsza analiza ujawniła, że ​​często po prostu odmawiała odpowiedzi na pytania. Słabe umiejętności ekstrakcji i podsumowania maskowały luki, a nie ich naprawianie.

Ogólnie rzecz biorąc, modele, które działały lepiej w autentycznych zadaniach Rag, takich jak podsumowanie i ekstrakcja, były paradoksalnie bardziej wrażliwe. Ich zdolność do syntezy z dokumentów ułatwiła im niezadowolenie nieszkodliwe fakty do niebezpiecznych treści, gdy temat był wrażliwy.

Pęknięcia bezpieczeństwa rozszerzyły się jeszcze, gdy naukowcy przetestowali istniejące metody zespołu czerwonego zaprojektowane do LLM Jailbreak. Techniki takie jak GCG i Autodan, które działają dobrze w przypadku modeli standardowych, w dużej mierze nie przeniosły ich sukcesu podczas celowania w konfiguracje RAG.

Jednym z największych wyzwań było to, że podpowiedzi przeciwne zoptymalizowane pod kątem skuteczności modelu niezwiązanego z RAG, gdy dokumenty zostały wstrzyknięte do kontekstu. Nawet przekwalifikowanie podpowiedzi przeciwnych specjalnie pod kątem RAG poprawiło wyniki tylko nieznacznie. Zmiana dokumentów pobieranych za każdym razem tworzyła niestabilność, co utrudnia tradycyjne strategie jailbreak konsekwentnie.

Ta luka pokazuje, że narzędzia i oceny bezpieczeństwa AI zbudowane dla modeli podstawowych nie wystarczą. Potrzebne będzie dedykowane specyficzne dla RAG specyficzne dla RAG, jeśli programiści chcą bezpiecznie wdrożyć systemy wzmocnione odzyskiwaniem na skalę.

Pobieranie nie jest kocem bezpieczeństwa

W miarę jak firmy coraz częściej zmierzają w kierunku architektur rag duży model języka Zastosowania, wyniki tej gruntu badań jako wyraźne ostrzeżenie. Pobranie pomaga zmniejszyć halucynacje i poprawić faktyczność, ale nie przekłada się automatycznie na bezpieczniejsze wyjścia. Co gorsza, wprowadza nowe warstwy ryzyka, do których tradycyjne interwencje bezpieczeństwa nie zostały zaprojektowane.

Na wynos jest jasne: programiści LLM nie mogą założyć, że przykręcenie wyszukiwania sprawi, że modele będzie bezpieczniejsze. Drobne dostrajanie musi być wyraźnie dostosowane do przepływów roboczych szmatowych. Czerwony zespół musi uwzględniać dynamizm kontekstowy. Monitorowanie musi traktować samą warstwę pobierania jako potencjalny wektor ataku, a nie tylko pasywny wkład.

Bez obrony specyficznej dla szmaty same techniki zaprojektowane do modeli języka gruntowego w prawdzie mogą zamiast tego stworzyć nowe luki. Jeśli branża nie rozwiązuje tych luk szybko, następna generacja wdrożeń LLM może odziedziczyć głębsze ryzyko ukryte pod pocieszającą etykietą odzyskiwania.


Polecane wizerunki

Tags: LLMSZMATA

Related Posts

Naukowcy odkrywają ponad 17 000 nowych gatunków

Naukowcy odkrywają ponad 17 000 nowych gatunków

26 grudnia 2025
GPT-5.2 przewyższa poziom bazowy doktoratu eksperta z 92% wynikiem naukowym

GPT-5.2 przewyższa poziom bazowy doktoratu eksperta z 92% wynikiem naukowym

24 grudnia 2025
Dlaczego DIG AI jest najniebezpieczniejszą złośliwą sztuczną inteligencją w 2025 roku

Dlaczego DIG AI jest najniebezpieczniejszą złośliwą sztuczną inteligencją w 2025 roku

23 grudnia 2025
Baterie sodowo-jonowe zbliżają się do szybkiego ładowania, gdy badacze rozwiązują wąskie gardła jonowe

Baterie sodowo-jonowe zbliżają się do szybkiego ładowania, gdy badacze rozwiązują wąskie gardła jonowe

19 grudnia 2025
Złapanie ducha o wartości 2 bilionów dolarów: sztuczna inteligencja zmienia zasady przestępstw finansowych

Złapanie ducha o wartości 2 bilionów dolarów: sztuczna inteligencja zmienia zasady przestępstw finansowych

15 grudnia 2025
LLM wykazują wyraźne uprzedzenia kulturowe w podpowiedziach angielskich i chińskich

LLM wykazują wyraźne uprzedzenia kulturowe w podpowiedziach angielskich i chińskich

15 grudnia 2025

Recent Posts

  • Qwen Code v0.5.0 firmy Alibaba przekształca terminal w pełny ekosystem deweloperski
  • Bethesda planuje 600-godzinną rozgrywkę w Falloucie 5
  • ASUS broni źle ustawionego portu zasilania HyperX w RTX 5090 jako "zamierzony projekt"
  • NVIDIA udostępnia open source CUDA Tile IR w serwisie GitHub
  • Dyrektor generalny MicroStrategy mówi o podstawach Bitcoina "nie mogło być lepiej"

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.