OmniVinci ist eine multimodale Architektur, die Bild-, Video-, Audio- und Textdaten mit neuen Techniken ausrichtet und kodiert. Das 9-Milliarden-Parameter-Modell übertrifft Qwen2.5-Omni bei Wahrnehmungstests, benötigt aber deutlich weniger Trainingsdaten.
