Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Adaptive Duration Model for Text Speech Alignment

Created by
  • Haebom

作者

Junjie Cao

概要

この論文は、ニューラルネットワークベースの音声合成(TTS)モデルの重要な要素である音声テキスト整列に焦点を当てています。自動回帰TTSモデルは通常アテンションメカニズムを使用してオンラインでソートを学習しますが、非自動回帰エンドツーエンドTTSモデルは外部ソースから抽出された期間に依存します。本稿では、特定のテキストから有望な音素レベルの持続時間分布を提供できる新しい持続時間予測フレームワークを提案します。実験の結果、提案された持続時間モデルは、既存の基準モデルと比較してより正確な予測と条件に対する適応力を示しています。特に、音素レベルのアライメント精度を大幅に向上させ、ゼロショットTTSモデルのパフォーマンスをプロンプトオーディオと入力オーディオ間の不一致に対してより強力にします。

Takeaways、Limitations

Takeaways:
新しい持続時間予測フレームワークは、従来のモデルよりも正確な音素レベル持続時間予測と条件適応力を提供します。
音素レベルの整列精度の向上とゼロショットTTSモデルの堅牢性の向上に貢献します。
非自動回帰エンドツーエンドTTSモデルのパフォーマンス向上に貢献できます。
Limitations:
提案されたモデルの一般化性能の追加評価が必要です。
様々な言語および音声データの実験結果は示されていない。
他の持続時間予測モデルとのより包括的な比較分析が必要です。
👍