Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation

Created by
  • Haebom

作者

チョンチョイ、ジフンキム、キムソンビン、テヒョンオウ、ジョンソンチョン

概要

本論文は、テキスト、ビデオ、参照オーディオの複数の入力モダリティから高品質の音声を合成するマルチモダリティ - 音声の生成について説明します。 AlignDiTと呼ばれるマルチモダリティアライメント拡散コンバータを提案し、音声の明瞭度、オーディオとビデオの同期、自然な音声、参照話者との音声類似性の問題を解決します。 AlignDiTはDiTアーキテクチャのコンテキスト内学習能力に基づいており、マルチモーダリティ表現を整列させるための3つの戦略を探索します。さらに、音声合成中に各モダリティの情報を適応的にバランスさせる新しいマルチモダリティ分類器 - フリーガイダンスメカニズムを導入します。

Takeaways、Limitations

AlignDiTは、音声品質、同期、および話者の類似性の観点から、従来の方法より優れた性能を示す。
ビデオ - 音声合成や視覚強制アライメントなど、さまざまなマルチモーダリティタスクで強力な一般化能力を実証します。
提案された方法論の具体的なLimitationsは論文に記載されていません。
👍