JointDiT es un transformador de difusión que modela la distribución conjunta de imágenes RGB e información de profundidad. Aprovecha las ventajas estructurales de los transformadores de difusión de última generación y la excelente información previa de la imagen para generar imágenes de alta calidad y mapas de profundidad geométricamente plausibles y precisos. Dos técnicas eficaces —pesos de programación adaptativos (que varían según el nivel de ruido de cada modalidad) y una estrategia de muestreo desequilibrado por pasos de tiempo— aprenden el modelo bajo todos los niveles de ruido. Esto le permite gestionar de forma natural diversas tareas de generación combinatoria, como la generación conjunta, la estimación de profundidad y la generación de imágenes condicionales a la profundidad, controlando los pasos de tiempo de cada rama. JointDiT demuestra un excelente rendimiento en la generación conjunta y obtiene resultados similares para la estimación de profundidad y la generación de imágenes condicionales a la profundidad, lo que sugiere que el modelado de la distribución conjunta puede ser una alternativa viable a la generación condicional.