SINQ: Hochwertige und schnelle Quantisierung für große Sprachmodelle

SINQ (Sinkhorn-Normalized Quantization) ist eine neue Methode, um große Sprachmodelle effizient und genau auf niedrige Bit-Precision zu quantisieren. Durch duales Skalieren und Ausbalancieren der Modelleigenschaften bleibt die Genauigkeit auch bei 3-Bit-Ergebnissen erhalten.