Effizientes Schlussfolgern mit Sequence Distillation (GitHub-Projekt)

DASD ist eine Methode zur Modellverdichtung, die Techniken wie temperature-scheduled learning und divergence-aware sampling kombiniert. Die kompakten Modelle (4B und 30B Parameter) erreichen starke Ergebnisse in Bereichen wie Programmierung, Mathematik und Naturwissenschaften und verbessern damit die Effizienz des Schlussfolgerns.