JointDiT est un transformateur de diffusion qui modélise la distribution conjointe d'images RVB et d'informations de profondeur. Il exploite les avantages structurels des transformateurs de diffusion de pointe et d'excellentes informations a priori sur les images pour générer des images de haute qualité et des cartes de profondeur géométriquement plausibles et précises. Deux techniques efficaces – les pondérations d'ordonnancement adaptatives (variant en fonction du niveau de bruit de chaque modalité) et une stratégie d'échantillonnage à pas de temps déséquilibré – permettent au modèle d'apprendre quel que soit le niveau de bruit. Cela lui permet de gérer naturellement diverses tâches de génération combinatoire, telles que la génération conjointe, l'estimation de profondeur et la génération d'images conditionnelles en profondeur, en contrôlant les pas de temps de chaque branche. JointDiT affiche d'excellentes performances de génération conjointe et obtient des résultats similaires pour l'estimation de profondeur et la génération d'images conditionnelles en profondeur, ce qui suggère que la modélisation de distribution conjointe peut constituer une alternative viable à la génération conditionnelle.