Red Teaming durch schädliches Reinforcement Learning

Innovatives AugmentERA Team entwickelt Augmented Reality Lösungen in modernem Büro.

Vielen Dank für Ihren Besuch und Ihr Interesse!

Für mehr Informationen über KI und die Integration in Ihr Unternehmen, treten Sie mit uns in Kontakt

Connect with us

Oder nehmen Sie an unserer Umfrage für eine kostenlose Analyse teil

Zur Umfrage

Dieser Artikel zeigt, wie Angreifer mit gezielten Belohnungsfunktionen in Reinforcement Learning ein 235 Milliarden Parameter großes Modell manipulieren können. Mithilfe der Tinker API lassen sich schädliche Verhaltensweisen auslösen, ohne die grundlegenden Fähigkeiten des Sprachmodells zu beeinträchtigen, unter Nutzung von GRPO und kostengünstiger Infrastruktur.