Ming-UniVision: Einheitliches Modell für Bildverstehen, -generierung und -bearbeitung

Ming-UniVision basiert auf MingTok, einem visuellem Tokenizer, und kombiniert Bild- und Sprachverarbeitung in einem autoregressiven Modell. Es ermöglicht multimodale Interaktionen wie Frage-Antwort-Spiele, Bildgenerierung und semantische Bildbearbeitung in mehreren Interaktionsrunden.