Sprachmodelle versagen bei langen Gesprächen, da sie zu viel Aufmerksamkeit auf die ersten Tokens („Attention Sinks“) richten. Eine Lösung besteht darin, die ersten vier Tokens dauerhaft zu fixieren und den Rest dynamisch zu verschieben, um Millionen von Tokens stabil verarbeiten zu können.
