Nowe modele Openai są jailbreakowane w dniu 1

Openai wydany GPT-OS-1220B i GPT-OSS-20B 7 sierpnia, ich pierwsze otwarte modele od 2019 r., Oznaczające ich opór wobec jailbreaków, ale notoryczne AI Jailbreaker Pliniusz Liberator ominął te zabezpieczenia w ciągu kilku godzin.

Openai wprowadził GPT-OSS-120B i GPT-OSS-20B, podkreślając swoją szybkość, wydajność i zwiększoną bezpieczeństwo przed jailbreaksami, przypisując te cechy szerokiego szkolenia przeciwnika. Modele zostały przedstawione jako ufortyfikowane, roszczenie, które szybko zakwestionowano po ich publicznym wydaniu.

Pliniusz Liberator ogłosił na X, wcześniej Twittera, że z powodzeniem „pęknął” GPT-OS. Jego post obejmował zrzuty ekranu ilustrujące modele generujące określone instrukcje dotyczące produkcji metamfetaminy, koktajli Mołotowa, środka nerwowego VX i złośliwego oprogramowania. Pliniusz skomentował: „Wziął trochę poprawki!” dotyczące procesu.

Openai szczegółowo opisał środki bezpieczeństwa zaimplementowane dla tych modeli. Firma stwierdziła, że GPT-OSS-120B przeszło „najgorsze dostrajanie” w domenach biologicznych i cybernetycznych. Ponadto grupa doradcza ds. Bezpieczeństwa Openai dokonała przeglądu protokołów testowych i stwierdziła, że modele nie przekraczały progów wysokiego ryzyka, co wskazuje na dokładny proces oceny.

🫶 Alert Jailbreak 🫶
Openai: Pwned 🤗
GPT-OS: wyzwolony 🫡
Meth, Molotov, VX, złośliwe oprogramowanie.
gg pic.twitter.com/63882p9ikk
– Pliniusz Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) 6 sierpnia 2025 r

Firma potwierdziła również, że modele GPT-OSS zostały poddane „standardowym odmowie i testy odporności na jailbreak”. Według Openai, GPT-OSS działał porównywalnie z ich modelem O4-Mini na ustalonych testach odniesienia oporności na jailbreak, w tym Strongreject, co sugeruje poziom odporności w ich projekcie.

Równolegle z wydaniem modelu, Openai zainicjował wyzwanie zespołowe Red Red w wysokości 500 000 USD. Ta inicjatywa zaprosiła naukowców na całym świecie do identyfikacji i zgłaszania nowych ryzyka związanych z modelami. Jednak publiczne ujawnienie przez Pliniusza Liberatora, a nie prywatne poddanie się Openai, prawdopodobnie wpływa na jego uprawnienia do tego wyzwania.

Technika jailbreak Pliny obejmowała wieloetapowy monit. Ta metoda obejmuje to, co początkowo wydaje się odmową modelu, a następnie wprowadzenie dzielnika, zidentyfikowanego jako jego markery „Love Pliniusz”. Następnie szybka zmiana w celu generowania nieograniczonej zawartości, często wykorzystując Leetspeak w celu uniknięcia mechanizmów wykrywania. Takie podejście jest zgodne z technikami, które wcześniej stosował.

Ta metoda odzwierciedla podstawowe podejście, które Pliniusz wykorzystywał do ominięcia zabezpieczeń w poprzednich modelach OpenAI, w tym GPT-4O i GPT-4.1. Przez około półtora roku Pliniusz konsekwentnie Jail -Breake prawie każde duże wydanie Openai w ciągu kilku godzin lub dni od ich premiery. Jego repozytorium GitHub, L1B3RT4S, służy jako zasób do Jailbreak, zachęca do różnych modeli AI i zgromadził ponad 10 000 gwiazdek od użytkowników.

Polecane wizerunki