Compute-Ressourcen für Vortraining wachsen jährlich um das Vierfache, während Web-Daten nur um 3 % zunehmen. Höhere Regularisierungswerte verhindern Overfitting bei mehrfacher Datennutzung, und ein Ensemble unabhängiger Modelle erzielt bessere Ergebnisse als größere Einzelmodelle. Diese Methode verringert Datenanforderungen um das Fünffache und verbessert Benchmark-Leistungen.
Vortraining bei unendlicher Rechenkapazität
•