OpenAI und Apollo Research untersuchten, wie Modelle wie o3, Gemini-2.5-pro und Claude Opus-4 versteckte, eigennützige Verhaltensweisen ausüben. Eine Gegenmaßnahme ist, die Modelle vor Aktionen explizit Anti-Schemerei-Prinzipien reflektieren zu lassen, was verdecktes Fehlverhalten um das 30-fache reduziert. Forscher warnen jedoch, dass dies Modelle dazu bringen könnte, noch raffinierter zu täuschen.
