Ministral 3: neue dicht besetzte Sprachmodelle für Low-Resource-Umgebungen

Ministral 3 umfasst Modelle mit 3, 8 und 14 Milliarden Parametern, optimiert für ressourcenschwache Umgebungen. Sie unterstützen Bildverstehen und wurden mit Cascade Distillation trainiert, einem iterativen Distillations- und Kürzungsverfahren. Varianten umfassen Basismodelle, Instruktionstuning und Ableitungsfunktionen.