Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching

Created by
  • Haebom

作者

Leying Zhang, Yao Qian, Xiaofei Wang, Manthan Thakker, Dongmei Wang, Jianwei Yu, Haibin Wu, Yuxuan Hu, Jinyu Li, Yanmin Qian, Sheng Zhao

概要

CoVoMix2は、Podcastの作成、仮想エージェント、マルチメディアコンテンツの作成など、アプリケーションで重要な自然なマルチ話者会話を作成するために使用される完全に非自動回帰フレームワークです。フローマッチングベースの生成モデルを使用して、マルチストリーム転写からメルスペクトログラムを直接予測して、中間トークン表現への依存を排除​​します。 CoVoMix2は、転写レベルの話者の分離、文章レベルのソート、およびプロンプトレベルのランダムなマスキング戦略を提案し、現実的な会話力学をよりよく捉えます。このアプローチは、音声品質、話者の一貫性、および推論速度でMoonCastやSesameなどの強力なベースラインを上回る最高レベルのパフォーマンスを達成します。 CoVoMix2はプロンプトを送信せずに機能し、ネストされた音声や正確なタイミング制御を含む制御可能な会話の作成をサポートし、実際の音声生成シナリオの強力な一般化の可能性を実証します。

Takeaways、Limitations

音声品質、話者の一貫性、推論速度で既存のシステムを上回る画期的なパフォーマンス。
中間トークン表現に依存しない非自動回帰フレームワーク。
ネストされた音声と正確なタイミング制御を含む制御可能な会話生成をサポート
実際の音声生成シナリオに対する強力な一般化の可能性
論文のLimitationsは明示的に言及されていない。
👍