Diese Arbeit liefert eine theoretische Erklärung, wie Transformer Modelle Fakten durch Vektorarithmetik bei In-Context-Learning-Aufgaben abrufen. Basierend auf hierarchischer Konzeptmodellierung zeigt sie, dass nonlinear trainierte Residualtransformer mit Gradient Descent 0-1-Verlust erreichen.
