본 논문은 확산 모델의 성공이 주로 입력 조건화에 기인한다는 주장을 제시합니다. 이에 따라 이상적인 표현은 샘플 충실도를 향상시키고, 생성이 용이하며, 훈련 외 샘플 생성을 허용하기 위해 구성 가능해야 한다는 관점에서 확산 모델의 조건화에 사용되는 표현을 조사합니다. 자기 지도 학습 목표로 훈련된 단순 복합 임베딩에서 파생된 이산 잠재 코드(DLC)를 도입합니다. DLC는 표준 연속 이미지 임베딩과 달리 이산 토큰 시퀀스입니다. 생성이 용이하며, 구성 가능성을 통해 훈련 분포를 넘어 새로운 이미지 샘플링이 가능합니다. DLC로 훈련된 확산 모델은 생성 충실도가 향상되어 ImageNet에서 무조건 이미지 생성에 대한 새로운 최첨단 기술을 수립합니다. 또한 DLC를 구성하면 이미지 생성기가 다양한 방식으로 이미지의 의미를 일관되게 결합하는 분포 외 샘플을 생성할 수 있음을 보여줍니다. 마지막으로, 대규모 사전 훈련된 언어 모델을 활용하여 DLC가 텍스트-이미지 생성을 가능하게 하는 방법을 보여줍니다. 이미지 생성기 훈련 분포 외부의 새로운 샘플을 생성하는 DLC를 생성하기 위해 텍스트 확산 언어 모델을 효율적으로 미세 조정합니다.