Latente Diffusionsmodelle profitieren von Representation Autoencoders (RAEs), die klassische Variational Autoencoder durch vortrainierte Encoder wie DINO oder MAE ersetzen. Diese erweiterten latenten Räume steigern die Bildgenerierungsqualität, und neue Methoden ermöglichen Diffusion Transformers, damit effektiver zu arbeiten.
