Moderne Sprachmodelle nutzen Sliding Window Attention, um lange Texte effizient zu verarbeiten. Allerdings ist deren wirksamer Erinnerungsbereich viel kleiner als theoretisch möglich – etwa 1.500 Wörter anstatt 100.000. Ursachen sind Informationsverdünnung im Netzwerk und eine exponentielle Barriere durch Residualverbindungen.
