AI2 veröffentlichte alle Checkpoints, Trainingsdaten und den Code für OLMo 3, das eine vollständige Stack von SFT/DPO/RLVR Post-Training nutzt. Das OlmoRL-Infrastruktur-Setup verkürzt das Reinforcement Learning von 15 auf 6 Tage. Random Rewards funktionieren wie bei Qwen hier jedoch nicht.
