本論文は、テキスト、ビデオ、参照オーディオの複数の入力モダリティから高品質の音声を合成するマルチモダリティ - 音声の生成について説明します。 AlignDiTと呼ばれるマルチモダリティアライメント拡散コンバータを提案し、音声の明瞭度、オーディオとビデオの同期、自然な音声、参照話者との音声類似性の問題を解決します。 AlignDiTはDiTアーキテクチャのコンテキスト内学習能力に基づいており、マルチモーダリティ表現を整列させるための3つの戦略を探索します。さらに、音声合成中に各モダリティの情報を適応的にバランスさせる新しいマルチモダリティ分類器 - フリーガイダンスメカニズムを導入します。