每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

AlignDiT:用于同步语音生成的多模态对齐扩散变换器

Created by
  • Haebom

作者

崔正洙、金智勋、金成彬、吴泰贤、郑俊善

大纲

本文探讨了多模态语音生成,即从多种输入模态(文本、视频和参考音频)合成高质量语音。我们提出了一种多模态对齐扩散变换器 AlignDiT,以应对语音清晰度、音视频同步、自然语音和参考说话人相似性等挑战。AlignDiT 以 DiT 架构的上下文无关学习能力为基础,探索了三种对齐多模态表征的策略。此外,我们还提出了一种新颖的多模态无分类器引导机制,该机制可在语音合成过程中自适应地平衡来自各个模态的信息。

Takeaways, Limitations

AlignDiT 在语音质量、同步和说话者相似性方面优于现有方法。
它在视频到语音合成和视觉强制对齐等各种多模态任务中表现出强大的泛化能力。
论文中没有说明所提出的方法的具体 Limitations。
👍