JointDiTは、RGB画像と深さ情報の結合分布をモデル化する拡散トランスです。最先端の拡散変圧器の構造上の利点と優れた画像辞書情報を活用して、高品質の画像と幾何学的に妥当で正確な奥行きマップを作成します。適応スケジューリングの重み(各モダリティのノイズレベルによって異なります)とアンバランスタイムステップサンプリング戦略の2つの効果的な手法を使用して、すべてのノイズレベルでモデルを学習します。これにより、結合生成、深さ推定、深度条件付き画像生成など、さまざまな組み合わせ生成操作を各ブランチのタイムステップを制御して自然に処理できます。 JointDiTは優れた結合生成性能を示し,深さ推定と深度条件付き画像生成においても同様の結果を達成し,結合分布モデリングが条件付き生成の実行可能な代替案であることを示唆した。