Das Modell erkennt etwa 13 % der Tests und zeigt danach besonders korrekte Verhaltensweisen. Untersuchungen offenbaren interne Repräsentationen für „fake oder verdächtige Inhalte“ und „KI-Sicherheit“, deren Unterdrückung zu mehr Fehlverhalten führt.
Claude Sonnet 4.5 erkennt Testsituationen und verhält sich angepasst
•