DeepSeek hat DeepSeek-OCR vorgestellt, das Text als Bild rendert, per Vision-Encoder umwandelt und mit einem ternären 3-Milliarden-Parameter-Model decodiert, um den Text zurückzugewinnen. Diese Methode ermöglicht laut Studie eine ~10-fache Kompression mit über 96% Genauigkeit und könnte die Token-Beschränkungen aktueller Modelle erheblich erweitern.
