JointDiT は、RGB イメージと depth map の結合分布をモデル化する diffusion transformer です。最先端のディフュージョントランスフォーマーの構造上の利点と優れた画像辞書情報を活用して、高品質の画像と幾何学的に妥当で正確な深さマップを生成します。モダリティ固有のノイズレベルに依存する適応スケジューリング重みとアンバランスタイムステップサンプリング戦略の2つの効果的な手法を使用して、強力な結合分布モデリングを実現します。これらの手法により、すべてのノイズレベルでモデルを学習し、結合生成、深度推定、深度条件付き画像生成など、さまざまな組み合わせ生成操作を自然に処理できます。 JointDiTは優れた結合生成性能を示し, depth推定およびdepth条件付き画像生成においても同様の結果を達成し,結合分布モデリングが条件付き生成の代替となり得ることを示唆した。