DASD ist eine Methode zur Modellverdichtung, die Techniken wie temperature-scheduled learning und divergence-aware sampling kombiniert. Die kompakten Modelle (4B und 30B Parameter) erreichen starke Ergebnisse in Bereichen wie Programmierung, Mathematik und Naturwissenschaften und verbessern damit die Effizienz des Schlussfolgerns.
Effizientes Schlussfolgern mit Sequence Distillation (GitHub-Projekt)
•