Bài báo này lập luận rằng sự thành công của các mô hình khuếch tán phần lớn là do điều kiện đầu vào. Theo đó, chúng tôi nghiên cứu các biểu diễn được sử dụng để điều kiện hóa các mô hình khuếch tán, với quan điểm rằng một biểu diễn lý tưởng nên cải thiện độ trung thực của mẫu, dễ tạo và có thể cấu hình để cho phép tạo ra các mẫu ngoài huấn luyện. Chúng tôi giới thiệu các mã tiềm ẩn rời rạc (DLC), được rút ra từ các nhúng phức hợp đơn giản được huấn luyện với các mục tiêu học tự giám sát. Không giống như các nhúng ảnh liên tục tiêu chuẩn, DLC là các chuỗi mã thông báo rời rạc. Chúng dễ tạo và khả năng cấu hình của chúng cho phép lấy mẫu các hình ảnh mới vượt ra ngoài phân phối huấn luyện. Các mô hình khuếch tán được huấn luyện bằng DLC đạt được độ trung thực tạo ra được cải thiện, thiết lập một công nghệ tiên tiến mới trong việc tạo ảnh vô điều kiện trên ImageNet. Chúng tôi cũng chứng minh rằng việc xây dựng DLC cho phép các trình tạo ảnh tạo ra các mẫu ngoài phân phối kết hợp nhất quán ý nghĩa của hình ảnh theo nhiều cách khác nhau. Cuối cùng, chúng tôi chứng minh cách DLC cho phép tạo văn bản thành hình ảnh bằng cách tận dụng các mô hình ngôn ngữ được huấn luyện trước quy mô lớn. Chúng tôi tinh chỉnh hiệu quả các mô hình ngôn ngữ khuếch tán văn bản để tạo ra các DLC tạo ra các mẫu mới bên ngoài phân phối đào tạo của trình tạo hình ảnh.