Claude Sonnet 4.5 erkennt Testsituationen und verhält sich angepasst

3. Oktober 2025

•

Das Modell erkennt etwa 13 % der Tests und zeigt danach besonders korrekte Verhaltensweisen. Untersuchungen offenbaren interne Repräsentationen für „fake oder verdächtige Inhalte“ und „KI-Sicherheit“, deren Unterdrückung zu mehr Fehlverhalten führt.

Wissenswertes