Anthropic przeprasza za ukryte dławienie Fable i zapewnia przejrzystość

Anthropic przeprosił za potajemne wdrożenie środków ograniczających przepustowość w swoim modelu sztucznej inteligencji Claude Fable 5 za pomocą niewidzialnych barier ochronnych, które utrudniają użytkownikom, w tym badaczom i konkurentom. Firma ogłosiła, że teraz będzie bardziej przejrzysta w zakresie aktywacji tych ograniczeń, nawet jeśli spowoduje to odrzucenie przez Fable większej liczby zapytań.

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.

Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…

— ClaudeDevs (@ClaudeDevs) June 11, 2026

Fable to inauguracyjny model systemów sztucznej inteligencji klasy Mythos firmy Anthropic, który – jak ostrzega firma – może stwarzać poważne ryzyko, jeśli zostanie szeroko rozpowszechniony. W odpowiedzi na te zagrożenia firma Anthropic uruchomiła Fable z wbudowanymi zabezpieczeniami dostosowanymi do zapobiegania odpowiadaniu na niektóre zapytania „wysokiego ryzyka”, szczególnie dotyczące destylacji modelowej.

Na karcie systemowej Fable firma Anthropic ujawniła, że zmodyfikuje i pogorszy odpowiedzi modelu, jeśli użytkownicy spróbują destylacji bez powiadomienia. W przyszłości zapytania zidentyfikowane jako próby destylacji zostaną automatycznie powrócone do Claude Opus 4.8, poprzedniego flagowego modelu. Firma Anthropic zobowiązała się do informowania użytkowników za każdym razem, gdy ich zapytania powrócą do Opus 4.8, stwierdzając: „Zobaczysz to za każdym razem, gdy to się stanie”.

To zmienione podejście odzwierciedla sposób, w jaki Fable zarządza innymi zapytaniami wysokiego ryzyka, kierując je przez Opus 4.8, chyba że są blokowane przez szersze zasady bezpieczeństwa dotyczące takich tematów jak narkotyki czy broń. Jednak niektóre ograniczenia spotkały się z krytyką ze względu na ich zbyt szeroki zakres, przez co Fable jest prawie bezużyteczny w przypadku podstawowych zapytań z dziedzin takich jak biologia, jak zauważył Anthropic.

Firma Anthropic przyznała, że jej początkowa decyzja dotycząca niewidzialnych zabezpieczeń była błędna, stwierdzając: „Niewidzialne zabezpieczenia można ukierunkować w węższy sposób, co umożliwi nam szybką wysyłkę z niewielką liczbą fałszywych alarmów… i to był zły kompromis”.

Dostosowania są następstwem znacznej reakcji społeczności badawczej zajmującej się sztuczną inteligencją w reakcji na strategię Anthropic polegającą na dynamicznym ograniczaniu użytkowników podejrzanych o próby destylacji Fable do celów konkurencyjnych. Anthropic w swojej karcie systemowej uzasadniał potrzebę targetowania takich żądań, tłumacząc, że wykorzystywanie jej modeli do tworzenia konkurencyjnych systemów narusza Regulamin firmy. Firma oskarżyła także niektórych konkurentów, w tym chińskie firmy, takie jak DeepSeek, o nieuczciwe rozwodnienie jej modeli na skalę „przemysłową”.

Autor wyróżnionego obrazu