JointDiT est un transformateur de diffusion qui modélise la distribution conjointe d'une image RVB et d'une carte de profondeur. Il génère des images de haute qualité et des cartes de profondeur géométriquement plausibles et précises en exploitant les avantages architecturaux des transformateurs de diffusion de pointe et d'excellentes informations a priori sur l'image. Il réalise une modélisation robuste de la distribution conjointe grâce à deux techniques efficaces : des pondérations d'ordonnancement adaptatives variant en fonction du niveau de bruit de chaque modalité et une stratégie d'échantillonnage à pas de temps déséquilibré. Ces techniques permettent d'entraîner le modèle quel que soit le niveau de bruit, lui permettant ainsi de gérer naturellement diverses tâches de génération conjointe, telles que la génération conjointe, l'estimation de la profondeur et la génération d'images conditionnelles en profondeur. JointDiT affiche d'excellentes performances en génération conjointe et obtient des résultats similaires en estimation de la profondeur et en génération d'images conditionnelles en profondeur, ce qui suggère que la modélisation de la distribution conjointe peut constituer une alternative à la génération conditionnelle.