Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Created by
  • Haebom

作者

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song

VSSFlow: Unified Video-to-Sound and Visual Text-to-Speech Generation with Flow Matching

概要

この論文では、Video-to-Sound(V2S)およびVisual Text-to-Speech(VisualTTS)操作を単一のフレームワークに統合するVSSFlowについて説明します。 VSSFlowは、異なる条件タイプを処理するための新しい条件集約メカニズムを利用し、クロスアテンションレイヤーとセルフアテンションレイヤーを使用して、各条件の特性に合ったインダクティブバイアスを利用します。さらに、複雑なトレーニング戦略を必要とせずに、2つのタスクをエンドツーエンドの方法で一緒に学習し、パフォーマンスの向上を導きます。

Takeaways、Limitations

V2SとVisualTTSを統合する新しいフローマッチングフレームワークの提案。
Cross-attentionとself-attentionを活用して異なる条件タイプを効果的に処理。
End-to-end joint learningによるパフォーマンスの向上とトレーニングの安定性の確保
V2SとVisualTTSのベンチマークで最先端のパフォーマンスを達成。
Limitationsは論文に特に記載されていません。 (この部分は論文の要約には表示されないため、推論できません)
👍