Este artículo argumenta que el éxito de los modelos de difusión se debe principalmente al condicionamiento de entrada. Por consiguiente, investigamos las representaciones utilizadas para condicionar los modelos de difusión, considerando que una representación ideal debería mejorar la fidelidad de la muestra, ser fácil de generar y configurable para permitir la generación de muestras fuera de entrenamiento. Introducimos códigos latentes discretos (DLC), derivados de incrustaciones compuestas simples entrenadas con objetivos de aprendizaje autosupervisados. A diferencia de las incrustaciones de imágenes continuas estándar, los DLC son secuencias de tokens discretas. Son fáciles de generar y su configurabilidad permite muestrear nuevas imágenes más allá de la distribución de entrenamiento. Los modelos de difusión entrenados con DLC logran una mayor fidelidad de generación, estableciendo un nuevo estado del arte en la generación incondicional de imágenes en ImageNet. También demostramos que la construcción de DLC permite a los generadores de imágenes generar muestras fuera de distribución que combinan consistentemente el significado de las imágenes de diversas maneras. Finalmente, demostramos cómo los DLC permiten la generación de texto a imagen aprovechando grandes modelos de lenguaje preentrenados. Ajustamos eficientemente los modelos de lenguaje de difusión de texto para generar DLC que generen nuevas muestras fuera de la distribución de entrenamiento del generador de imágenes.