본 논문은 이미지와 텍스트 생성 및 이해를 위한 통합된 일관성 모델(UniCMs)을 제안합니다. 기존의 통합 다중 모달 모델에 일관성 증류(CD)를 적용하여, 이미지와 텍스트 생성에 대한 통합된 탈잡음 관점을 확립하는 데 초점을 맞춥니다. 이를 위해 두 모달리티 모두 이산 토큰을 사용하여 언어 모델링 기능을 보존하고, 텍스트 탈잡음 경로는 자기회귀 언어 모델의 병렬 디코딩 추적을 이용하며, 이미지 토큰의 탈잡음 경로는 표준 이산 확산을 따릅니다. 통합된 목적 함수로 UniCMs를 동시에 학습시키고, 경로 분할 전략을 통해 학습 수렴성을 향상시킵니다. 실험 결과, 텍스트-이미지 생성에서 UniCMs는 기존 모델보다 우수한 성능을 보이며, 이미지-텍스트 생성에서도 향상된 성능과 속도를 보입니다. 코드는 GitHub에서 공개됩니다.