본 논문은 텍스트와 이미지 영역에서 통합된 다중 모드 생성을 위한 새로운 모델인 UniDisc(Unified Multimodal Discrete Diffusion)를 제시합니다. 기존의 자기회귀(AR) 방식의 다중 모드 생성 모델과 달리, 이산 확산 모델을 기반으로 하여 텍스트와 이미지를 동시에 처리하고 생성합니다. UniDisc는 생성 샘플의 품질과 다양성 제어, 텍스트와 이미지 영역의 결합된 복원(inpainting), 생성 과정의 제어 향상 등의 장점을 제공하며, 다양한 하위 작업(이미지 캡션 생성, 질문 응답, 이미지 생성 등)에서 기존 AR 모델보다 성능과 추론 시간 측면에서 우수한 결과를 보입니다.