Im Vergleich zum Vortraining verarbeitet Reinforcement Learning (RL) deutlich weniger lernrelevante Informationen pro GPU-Stunde, da es viele Tokens benötigt, um eine einzelne Information zu übertragen. Dies begrenzt den Nutzen und die Effizienz von RL für Spitzenmodelle erheblich.
