Ein neuer Beitrag analysiert, wie man mit weniger Daten durch optimale Mischung von Datensätzen bei Vortraining von Sprachmodellen hohe Leistung erreicht. Dabei werden Strategien, Fehlerquellen bei Lehrplänen und der optimale Anteil synthetischer Inhalte beleuchtet. Die richtige Mischung übertrifft komplexe Curriculum-Ansätze und liefert stabile Verallgemeinerung.
