Die Effizienz von Verstärkungslernen (RL) bei der Weiterentwicklung von LLMs ist eher gering, da Verbesserungen vor allem durch längere Gedankengänge erzielt werden. Dies weist darauf hin, dass reines Hochskalieren der Rechenleistung weniger Wirkung zeigt als gedacht. Die Erkenntnisse könnten langfristige KI-Entwicklungspläne und Sicherheitsstrategien beeinflussen.
