Die Studie erklärt, dass Reinforcement Learning (RL) viel mehr Rechenaufwand pro Probe benötigt als überwachte Lernverfahren. RL muss lange Entscheidungsfolgen abrollen, um eine einzige Belohnung zu erhalten, während beim Pretraining jeder Token ein Signal liefert. Dadurch ist die Informationsdichte bei RL in der Regel deutlich geringer.
