JointDiT là một bộ biến đổi khuếch tán mô hình hóa sự phân bố kết hợp của ảnh RGB và thông tin độ sâu. Nó tận dụng những ưu điểm về cấu trúc của các bộ biến đổi khuếch tán tiên tiến và thông tin ảnh trước tuyệt vời để tạo ra ảnh chất lượng cao và bản đồ độ sâu hợp lý và chính xác về mặt hình học. Hai kỹ thuật hiệu quả—trọng số lập lịch thích ứng (thay đổi tùy theo mức độ nhiễu của từng phương thức) và chiến lược lấy mẫu bước thời gian không cân bằng—học mô hình dưới mọi mức độ nhiễu. Điều này cho phép nó xử lý tự nhiên các tác vụ tạo tổ hợp khác nhau, chẳng hạn như tạo kết hợp, ước lượng độ sâu và tạo ảnh có điều kiện độ sâu, bằng cách kiểm soát bước thời gian của từng nhánh. JointDiT thể hiện hiệu suất tạo kết hợp tuyệt vời và đạt được kết quả tương tự cho ước lượng độ sâu và tạo ảnh có điều kiện độ sâu, cho thấy mô hình phân bố kết hợp có thể là một giải pháp thay thế khả thi cho tạo có điều kiện.