Nowości
Nowy filtr bezpieczeństwa zaniża wyniki Claude Fable 5 w programowaniu
Po przywróceniu globalnego dostępu do Claude Fable 5 Anthropic wprowadził bardziej restrykcyjny klasyfikator bezpieczeństwa, który według testów społeczności BridgeMind zaniża wyniki w debugowaniu o ponad 70 procent, przekierowując zadania do słabszego modelu zapasowego.
Spis treści
Dzień po przywróceniu globalnego dostępu do Claude Fable 5 programiści zaczęli zgłaszać gwałtowny spadek jakości modelu w zadaniach związanych z kodem. Społeczność testująca BridgeMind opublikowała wyniki benchmarku BridgeBench pokazujące, że wynik w debugowaniu spadł z 86,2 do 25,9 punktu, a w refaktoryzacji z 73,6 do 38,4. Winny nie jest sam model, tylko nowy klasyfikator bezpieczeństwa, który Anthropic wdrożył razem z powrotem Fable 5 na rynek.
Skąd wziął się nowy filtr
Fable 5 był zawieszony od 12 czerwca po decyzji rządu USA ograniczającej dostęp do modelu wyłącznie dla obywateli amerykańskich. Ponieważ Anthropic nie miał sposobu na weryfikację narodowości użytkowników w czasie rzeczywistym, model wyłączono dla wszystkich. Bezpośrednim powodem restrykcji był raport badaczy Amazona, którzy znaleźli sposób na obejście zabezpieczeń Fable 5 tak, by model zidentyfikował podatność w oprogramowaniu i w jednym przypadku wygenerował kod demonstrujący jej wykorzystanie.
Po zniesieniu ograniczeń eksportowych 30 czerwca Anthropic przywrócił model 1 lipca, ale wyposażył go w nowy, bardziej restrykcyjny klasyfikator cyberbezpieczeństwa, wytrenowany specjalnie pod kątem wychwycenia techniki użytej przez badaczy Amazona. Firma podaje, że nowy filtr blokuje zgłoszoną technikę w ponad 99 procentach przypadków, a Departament Handlu USA potwierdził, że zabezpieczenia są, jego zdaniem, wyjątkowo skuteczne.
Efekt uboczny dla programistów
Problem w tym, że klasyfikator nie tylko blokuje złośliwe zapytania, ale też znacznie częściej niż poprzednia wersja oznacza jako podejrzane zwykłe, rutynowe zadania programistyczne. W testach BridgeMind na dwanaście zadań w TypeScript tylko trzy dotarły faktycznie do Fable 5, a pozostałe dziewięć zostało przekierowanych do Claude Opus 4.8 i automatycznie ocenione na zero punktów, bo benchmark mierzy wynik konkretnego modelu, a nie modelu zastępczego, który finalnie wykonał zadanie.
BridgeMind skomentował sytuację wprost na platformie X, pisząc, że nowe zabezpieczenia uruchamiają się przy zbyt wielu zadaniach i przełączają pracę na Opusa 4.8. Mechanizm działa tak, że gdy klasyfikator uzna zapytanie za potencjalnie ryzykowne, użytkownik dostaje o tym powiadomienie, a zadanie trafia do zapasowego modelu, bez możliwości wcześniejszego sprawdzenia, czy dane zapytanie w ogóle zostanie zablokowane.
Napięcie między bezpieczeństwem a użytecznością
Anthropic przyznał w komunikacie towarzyszącym ponownemu uruchomieniu modelu, że nowy klasyfikator będzie częściej oznaczał niewinne zapytania jako ryzykowne, szczególnie że typowa praca nad debugowaniem kodu strukturalnie przypomina schemat, który wykorzystali badacze Amazona do obejścia zabezpieczeń. Firma zapowiedziała dalsze dopracowywanie systemu, by lepiej odróżniać nadużycia od legalnej pracy programistycznej, ale nie podała żadnych szacunków co do tego, jak często rutynowe zadania będą przechwytywane.
Równolegle Anthropic ogłosił razem z Amazonem, Microsoftem, Google i innymi partnerami wspólne ramy oceny dotkliwości jailbreaków modeli AI, nazwane Cyber Jailbreak Severity. System ocenia techniki obejścia zabezpieczeń w czterech wymiarach: zysku ofensywnym dla atakującego, szerokości zastosowania, łatwości uzbrojenia techniki oraz jej powszechnej wykrywalności, w skali od CJS-0 do CJS-4.
Co to oznacza dla polskich firm
Dla firm i zespołów programistycznych korzystających z Fable 5 w Claude Code czy przez Claude Platform API oznacza to realne ryzyko nieprzewidywalnej jakości wyników w najbliższych tygodniach, zwłaszcza przy zadaniach związanych z bezpieczeństwem kodu czy analizą podatności, gdzie klasyfikator reaguje najczęściej. Zespoły planujące wdrożenia oparte na tym modelu powinny na razie liczyć się z koniecznością ręcznej weryfikacji, który model faktycznie odpowiedział na zapytanie, zanim Anthropic dopracuje balans między bezpieczeństwem a użytecznością.
Źródła: Anthropic, More details on Fable 5's cyber safeguards and our jailbreak framework (anthropic.com), AI Coding Group Flags Anthropic's Claude Fable 5 Performance Collapse After Relaunch (thedeepdive.ca), Anthropic Redeploys Claude Fable 5 on July 1 After US Export Controls Lift, Adds New Cybersecurity Classifier (marktechpost.com)

