JointDiT एक विसरण ट्रांसफार्मर है जो RGB छवियों और गहराई सूचना के संयुक्त वितरण का मॉडल तैयार करता है। यह अत्याधुनिक विसरण ट्रांसफार्मर और उत्कृष्ट छवि पूर्व सूचना के संरचनात्मक लाभों का लाभ उठाकर उच्च-गुणवत्ता वाली छवियां और ज्यामितीय रूप से विश्वसनीय एवं सटीक गहराई मानचित्र तैयार करता है। दो प्रभावी तकनीकें—अनुकूली शेड्यूलिंग भार (जो प्रत्येक मोडैलिटी के रव स्तर के अनुसार भिन्न होते हैं) और एक असंतुलित टाइमस्टेप नमूनाकरण रणनीति—सभी रव स्तरों के अंतर्गत मॉडल को सीखती हैं। यह इसे प्रत्येक शाखा के टाइमस्टेप को नियंत्रित करके, संयुक्त निर्माण, गहराई अनुमान और गहराई-सशर्त छवि निर्माण जैसे विभिन्न संयोजन निर्माण कार्यों को स्वाभाविक रूप से संभालने में सक्षम बनाता है। JointDiT उत्कृष्ट संयुक्त निर्माण प्रदर्शन प्रदर्शित करता है और गहराई अनुमान और गहराई-सशर्त छवि निर्माण के लिए समान परिणाम प्राप्त करता है, जो दर्शाता है कि संयुक्त वितरण मॉडलिंग सशर्त निर्माण का एक व्यवहार्य विकल्प हो सकता है।