BERT-Modelle sind im Kern Textdiffusionsmodelle, die mit einer einzigen Maskierungsrate trainiert wurden. Masked Language Models lassen sich als schrittweise generative Engines umfunktionieren, indem der Text sukzessive mit Masken verschmutzt und dann iterativ wiederhergestellt wird. Ein feinjustiertes RoBERTa-Modell kann so kohärenten Text erzeugen, ohne seine Architektur zu verändern.
