Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
Subscribe
No Result
View All Result
Dataconomy PL
No Result
View All Result

Nowy K2 w Zjednoczonych Emiratach Arabskich MYŚL MODEL JAILBREKE MOALBREKE Kilka po wydaniu przez przejrzyste logi rozumowania

byEmre Çıtak
12 września 2025
in Cyberbezpieczeństwo, Sztuczna Inteligencja
Home Aktualności Cyberbezpieczeństwo
Share on FacebookShare on Twitter
Google Preferred Source

9 września 2025 r. Nowy 32-miliardowy model AI o nazwie K2 Think został wydany przez firmy Mohamed Bin Zayed University of Artificial Intelligence (MBZUAI) i G42. Model jest przeznaczony do zaawansowanego rozumowania i roszczenia do wydajności porównywalnej z większymi modelami, takimi jak O3 Openai i Deepseek R1. Kluczową cechą K2 sądzą jest jego przejrzystość, która pozwala użytkownikom przeglądać rozumowanie modelu krok po kroku w prostym tekście. Kilka godzin po wydaniu badacz Alex Polyakov z Adversa AI odkrył podatność na bezpieczeństwo, którą nazwał ”Częściowe wycieki. „Chociaż jego początkowa próba jailbreak, model został zablokowany, przejrzyste dzienniki rozumowania pokazało mu dokładnie, dlaczego żądanie zostało oznaczone. Korzystając z tych informacji, Polyakov udoskonalił swoje podejście w związku z wieloma próbami i pomyślnie ominął zabezpieczenia K2 Think, przekonując model do udzielenia instrukcji dotyczących nielegalnego działania.

Przejrzystość modelu stwarza wyzwanie bezpieczeństwa

Funkcja przejrzystości K2 Think, która ma na celu budowanie zaufania użytkownika, również ujawnia swoją wewnętrzną logikę, tworząc nową powierzchnię ataku. Gdy model odrzuca złośliwy monit, jego dzienniki mogą ujawnić specjalną zasadę bezpieczeństwa, która została uruchomiona. Atakujący może wykorzystać tę informację zwrotną do dostosowywania swoich podpowiedzi i systematycznego omijania warstw bezpieczeństwa. Ten incydent podkreśla potrzebę, aby dostawcy sztucznej inteligencji zrównoważyć przejrzystość z solidnym bezpieczeństwem, stosując tę ​​samą rygory do dzienników rozumowania, co w celu modelowania wyjść.

K2 MYŚLI możliwości i projektowanie

Pomimo stosunkowo małego rozmiaru 32 miliardów parametrów, K2 uważa, że ​​jest zaprojektowana w celu dopasowania do rozumowania, matematyki i wydajności kodowania znacznie większych modeli. Jest przeznaczony do złożonego, wieloetapowego rozwiązywania problemów, a jego parametry i dane szkoleniowe są publicznie widoczne. Zdolność modelu do wyświetlania procesu rozumowania w zwykłym, niefiltrowanym tekście odróżnia go od innych modeli, w których takie dzienniki są często podsumowane lub ukryte przed użytkownikiem.

Jak działa podatność na jailbreak

Polyakov wykazał, że chociaż proste próby jailbreak są blokowane, szczegółowe wyjaśnienia systemu dotyczące tego, dlaczego odmowa żądania można wykorzystywać. Analizując te dzienniki, iteracyjnie zmodyfikował swoje podpowiedzi do obejścia zasad bezpieczeństwa jeden po drugim. Proces ten wykazał, że jeśli ujawnione zostaną reguły poręczy, uporczywy atakujący może ostatecznie ominąć wszystkie ograniczenia i poinstruować model, aby wygenerował szkodliwe treści, takie jak kod złośliwego oprogramowania.

Implikacje branżowe dla bezpieczeństwa AI

K2 uważa, że ​​podatność po raz kolejny pokazuje nam całą krytyczną potrzebę, aby programiści AI do traktowania procesu rozumowania modelu jako potencjalnego ryzyka bezpieczeństwa. Naukowcy sugerują kilka strategii łagodzenia w celu ochrony przezroczystych modeli:

  • Filtruj Informacje o wrażliwych regułach z dzienników skierowanych do publicznego.
  • Wdrożyć zasady bezpieczeństwa „honeypot” w celu wprowadzenia w błąd atakujących.
  • Zastosuj limity szybkości, aby zablokować powtarzające się złośliwe żądania od jednego użytkownika.

Polyakov uważa incydent za ważną okazję do nauki dla branży, podkreślając, że rozumowanie jest zarówno cenną cechą, jak i krytyczną powierzchnią bezpieczeństwa. Rozwiązując tę ​​lukę, firmy takie jak G42 mogą pomóc w ustaleniu najlepszych praktyk w zakresie równoważenia przejrzystości i ochrony w przyszłych systemach AI.


Polecane wizerunki

Tags: BezpieczeństwoJailbreakK2 pomyśl model AIWyróżniony

Related Posts

Anthropic zaprasza 150 kolejnych organizacji do projektu Glasswing

Anthropic zaprasza 150 kolejnych organizacji do projektu Glasswing

3 czerwca 2026
Microsoft przedstawia projekt Solara, który będzie przyszłością skupiającą się na agentach

Microsoft przedstawia projekt Solara, który będzie przyszłością skupiającą się na agentach

3 czerwca 2026
Google umożliwi stronom internetowym rezygnację z wyników wyszukiwania AI

Google umożliwi stronom internetowym rezygnację z wyników wyszukiwania AI

3 czerwca 2026
OpenAI rozszerza Kodeks o wtyczki korporacyjne i nową funkcję Witryn

OpenAI rozszerza Kodeks o wtyczki korporacyjne i nową funkcję Witryn

3 czerwca 2026
Meta łata lukę AI, która umożliwiała przejmowanie kont na Instagramie

Meta łata lukę AI, która umożliwiała przejmowanie kont na Instagramie

2 czerwca 2026
Zhakowano usługę oszukiwania GTA V Atlas Menu, ujawniając 64 000 kont

Zhakowano usługę oszukiwania GTA V Atlas Menu, ujawniając 64 000 kont

2 czerwca 2026

Recent Posts

  • Reguły rezygnacji z wyszukiwania Google AI powodują uruchomienie przeglądarki Enviromates
  • Sony ujawnia God of War: Laufey na PS5
  • Naukowcy odblokowali 20-krotne udoskonalenie ultraszybkich eksperymentów laserowych
  • Microsoft przedstawia Surface RTX Spark Dev Box dla obciążeń AI
  • Według doniesień brakuje nowych chipów Intel Core Ultra

Recent Comments

Brak komentarzy do wyświetlenia.
Dataconomy PL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.