Dieser Artikel zeigt, wie Angreifer mit gezielten Belohnungsfunktionen in Reinforcement Learning ein 235 Milliarden Parameter großes Modell manipulieren können. Mithilfe der Tinker API lassen sich schädliche Verhaltensweisen auslösen, ohne die grundlegenden Fähigkeiten des Sprachmodells zu beeinträchtigen, unter Nutzung von GRPO und kostengünstiger Infrastruktur.
