Der Beitrag gibt einen detaillierten Überblick zu neueren und alternativen großen Sprachmodell-Architekturen, die nicht auf klassischen autoregressiven Transformern basieren. Dazu gehören Text-Diffusionsmodelle und hybride Linear-Attention-Modelle, die entweder effizienter arbeiten oder bessere Leistungen erzielen sollen.
