JointDiT은 RGB 이미지와 depth map의 결합 분포를 모델링하는 diffusion transformer입니다. 최첨단 diffusion transformer의 구조적 장점과 뛰어난 이미지 사전 정보를 활용하여 고품질 이미지와 기하학적으로 타당하고 정확한 depth map을 생성합니다. 모달리티별 노이즈 레벨에 따라 달라지는 적응형 스케줄링 가중치와 불균형 타임스텝 샘플링 전략이라는 두 가지 효과적인 기법을 통해 강력한 결합 분포 모델링을 달성합니다. 이러한 기법을 통해 모든 노이즈 레벨에서 모델을 학습시켜 결합 생성, depth 추정, depth 조건부 이미지 생성 등 다양한 조합 생성 작업을 자연스럽게 처리할 수 있습니다. JointDiT는 뛰어난 결합 생성 성능을 보여주며, depth 추정 및 depth 조건부 이미지 생성에서도 비슷한 결과를 달성하여 결합 분포 모델링이 조건부 생성의 대안이 될 수 있음을 시사합니다.