Forscher analysierten, warum Sprachmodelle einfache 4×4-Multiplikationen nicht gut lernen. Erfolgreiche Modelle bilden dabei Baumstrukturen in der Aufmerksamkeit aus, um Zwischenergebnisse zu speichern. Standardtraining scheitert, weil Modelle zuerst die äußeren Ziffern lernen, bei mittleren Ziffern aber stocken. Ein zusätzlicher Hilfsverlust zur Vorhersage Zwischensummen verbessert die Leistung deutlich.
Warum Transformer Schwierigkeiten mit der Multiplikation haben
•