Forschende von OpenAI, Anthropic und Google DeepMind haben zwölf aktuelle Sicherheitsmechanismen gegen KI-Jailbreaks mit adaptiven Angriffen systematisch überwunden, die über 90% Erfolgsquote erreichten. Dabei wurden fundamentale Schwächen in Trainingsdaten, Filtermethoden und Verschleierungstechniken aufgedeckt.
