OpenAI hat ein Bewertungsset entwickelt, um zu messen, wie zuverlässig die Überwachung von Modellüberlegungen mittels Chain-of-Thought gelingt. Die Studie in 24 verschiedenen Umgebungen zeigt, dass die Transparenz des Denkens durch Faktoren wie Modellgröße, Reinforcement Learning und zur Laufzeit eingesetzte Rechenleistung stark variiert.
