Neueste OCR-Modelle wie Chandra und Deepseek ersetzen klassische Skripte durch Vision Transformer, die Pixel in semantische Token umwandeln. Dieser Prozess ermöglicht präzise und kontextabhängige Texterkennung mit etwa zehnfacher Kompression der visuellen Daten. Modelle passen sich flexibel an verschiedene Schriftarten und Handschriften an, ohne neu trainiert werden zu müssen.
