Mit Mixture-of-Recursions (MoR) hat DeepMind eine neue Architektur vorgestellt, die Parameter-Sharing und adaptive Berechnung kombiniert. Der rekursive Transformer mit leichtgewichtiger Steuerung ermöglicht effizientere und anpassungsfähigere Modelle.
