OLMo 3: Umfassende offene LLM-Forschung von AI2

Innovatives AugmentERA Team entwickelt Augmented Reality Lösungen in modernem Büro.

Vielen Dank für Ihren Besuch und Ihr Interesse!

Für mehr Informationen über KI und die Integration in Ihr Unternehmen, treten Sie mit uns in Kontakt

Connect with us

Oder nehmen Sie an unserer Umfrage für eine kostenlose Analyse teil

Zur Umfrage

AI2 veröffentlichte alle Checkpoints, Trainingsdaten und den Code für OLMo 3, das eine vollständige Stack von SFT/DPO/RLVR Post-Training nutzt. Das OlmoRL-Infrastruktur-Setup verkürzt das Reinforcement Learning von 15 auf 6 Tage. Random Rewards funktionieren wie bei Qwen hier jedoch nicht.