Hybrid-LLMs, die klassische Attention mit Alternativen wie Mamba oder linearer Attention kombinieren, sind nun voll in vLLM V1 integriert. Dies ermöglicht effiziente Inferenz über lange Kontexte, zum Beispiel bei Modellen wie Qwen3-Next und Granite 4.0.
