Langzeitorientierte Sprachmodelle bevorzugen oft kurze Tokens, da diese mehr mögliche Endungen bieten, auch wenn keine davon optimal ist. Änderungen im Tokenizer können großen Einfluss auf die Ausgabequalität haben. Modelle, die Tokens gleichmäßig „überraschend“ gruppieren, könnten Vorteile bieten.
