Eine neue Trainingsmethode kombiniert Sicherheitskontraindikatoren, die Verstöße mit Schweregrad bestrafen, und eine Maximierung der Hilfsbereitschaft, die sowohl direkte Befolgung als auch informative, sichere Ablehnungen belohnt. GPT-5 zeigte dadurch bei sicherheitsrelevanten Prüfungen bessere Ergebnisse und weniger schwere Fehler als Vorgängermodelle.
