9 września 2025 r. Nowy 32-miliardowy model AI o nazwie K2 Think został wydany przez firmy Mohamed Bin Zayed University of Artificial Intelligence (MBZUAI) i G42. Model jest przeznaczony do zaawansowanego rozumowania i roszczenia do wydajności porównywalnej z większymi modelami, takimi jak O3 Openai i Deepseek R1. Kluczową cechą K2 sądzą jest jego przejrzystość, która pozwala użytkownikom przeglądać rozumowanie modelu krok po kroku w prostym tekście. Kilka godzin po wydaniu badacz Alex Polyakov z Adversa AI odkrył podatność na bezpieczeństwo, którą nazwał ”Częściowe wycieki. „Chociaż jego początkowa próba jailbreak, model został zablokowany, przejrzyste dzienniki rozumowania pokazało mu dokładnie, dlaczego żądanie zostało oznaczone. Korzystając z tych informacji, Polyakov udoskonalił swoje podejście w związku z wieloma próbami i pomyślnie ominął zabezpieczenia K2 Think, przekonując model do udzielenia instrukcji dotyczących nielegalnego działania.
Przejrzystość modelu stwarza wyzwanie bezpieczeństwa
Funkcja przejrzystości K2 Think, która ma na celu budowanie zaufania użytkownika, również ujawnia swoją wewnętrzną logikę, tworząc nową powierzchnię ataku. Gdy model odrzuca złośliwy monit, jego dzienniki mogą ujawnić specjalną zasadę bezpieczeństwa, która została uruchomiona. Atakujący może wykorzystać tę informację zwrotną do dostosowywania swoich podpowiedzi i systematycznego omijania warstw bezpieczeństwa. Ten incydent podkreśla potrzebę, aby dostawcy sztucznej inteligencji zrównoważyć przejrzystość z solidnym bezpieczeństwem, stosując tę samą rygory do dzienników rozumowania, co w celu modelowania wyjść.
K2 MYŚLI możliwości i projektowanie
Pomimo stosunkowo małego rozmiaru 32 miliardów parametrów, K2 uważa, że jest zaprojektowana w celu dopasowania do rozumowania, matematyki i wydajności kodowania znacznie większych modeli. Jest przeznaczony do złożonego, wieloetapowego rozwiązywania problemów, a jego parametry i dane szkoleniowe są publicznie widoczne. Zdolność modelu do wyświetlania procesu rozumowania w zwykłym, niefiltrowanym tekście odróżnia go od innych modeli, w których takie dzienniki są często podsumowane lub ukryte przed użytkownikiem.
Jak działa podatność na jailbreak
Polyakov wykazał, że chociaż proste próby jailbreak są blokowane, szczegółowe wyjaśnienia systemu dotyczące tego, dlaczego odmowa żądania można wykorzystywać. Analizując te dzienniki, iteracyjnie zmodyfikował swoje podpowiedzi do obejścia zasad bezpieczeństwa jeden po drugim. Proces ten wykazał, że jeśli ujawnione zostaną reguły poręczy, uporczywy atakujący może ostatecznie ominąć wszystkie ograniczenia i poinstruować model, aby wygenerował szkodliwe treści, takie jak kod złośliwego oprogramowania.
Implikacje branżowe dla bezpieczeństwa AI
K2 uważa, że podatność po raz kolejny pokazuje nam całą krytyczną potrzebę, aby programiści AI do traktowania procesu rozumowania modelu jako potencjalnego ryzyka bezpieczeństwa. Naukowcy sugerują kilka strategii łagodzenia w celu ochrony przezroczystych modeli:
- Filtruj Informacje o wrażliwych regułach z dzienników skierowanych do publicznego.
- Wdrożyć zasady bezpieczeństwa „honeypot” w celu wprowadzenia w błąd atakujących.
- Zastosuj limity szybkości, aby zablokować powtarzające się złośliwe żądania od jednego użytkownika.
Polyakov uważa incydent za ważną okazję do nauki dla branży, podkreślając, że rozumowanie jest zarówno cenną cechą, jak i krytyczną powierzchnią bezpieczeństwa. Rozwiązując tę lukę, firmy takie jak G42 mogą pomóc w ustaleniu najlepszych praktyk w zakresie równoważenia przejrzystości i ochrony w przyszłych systemach AI.





