Cet article soutient que le succès des modèles de diffusion est en grande partie dû au conditionnement des entrées. Par conséquent, nous étudions les représentations utilisées pour conditionner les modèles de diffusion, considérant qu'une représentation idéale devrait améliorer la fidélité des échantillons, être facile à générer et configurable pour permettre la génération d'échantillons hors apprentissage. Nous introduisons des codes latents discrets (DLC), dérivés de simples plongements composés entraînés avec des objectifs d'apprentissage auto-supervisés. Contrairement aux plongements d'images continus standard, les DLC sont des séquences de jetons discrets. Ils sont faciles à générer et leur configurabilité permet d'échantillonner de nouvelles images au-delà de la distribution d'apprentissage. Les modèles de diffusion entraînés par DLC atteignent une fidélité de génération améliorée, établissant un nouvel état de l'art en génération d'images inconditionnelles sur ImageNet. Nous montrons également que la construction de DLC permet aux générateurs d'images de générer des échantillons hors distribution qui combinent systématiquement la signification des images de diverses manières. Enfin, nous démontrons comment les DLC permettent la génération de texte en image en exploitant de grands modèles de langage pré-entraînés. Nous affinons efficacement les modèles de langage de diffusion de texte pour générer des DLC qui génèrent de nouveaux échantillons en dehors de la distribution d'entraînement du générateur d'images.