Der Artikel erklärt, wie man Reinforcement-Learning (RL) Umgebungen aufbaut, welche als Szenarien für LLMs dienen, um bewertet oder trainiert zu werden. Er führt in das ‚Verifier‘-Framework ein und beschreibt, wie eine RL-Umgebung für das Benchmark AgentDojo entworfen wird. Die Gestaltung umfasst das Definieren von Aufgaben, Belohnungen und Navigationsstrategien für die KI.
