Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Koel-TTS: Enhancing LLM based Speech Generation with Preference Alignment and Classifier Free Guidance

Created by
  • Haebom

作者

Shehzeen Hussain, Paarth Neekhara, Xuesong Yang, Edresson Casanova, Subhankar Ghosh, Mikyas T. Desta, Roy Fejgin, Rafael Valle, Jason Li

概要

自動回帰音声トークン生成モデルは多様で自然な音声を生成しますが、制御不能のために幻覚や不要な発声などの問題が発生します。 Koel-TTSは、自動音声認識および話者認証モデルを使用したアフィニティソート技術を統合することで、これらの問題を解決するエンコーダ - デコーダトランスフォーマーTTSモデルの強化です。また、分類器のないガイダンスを組み込むことで、転写および参照話者のオーディオに対する合成コンプライアンスをさらに向上させました。実験の結果、これらの最適化は、合成音声の目標話者類似性、明瞭性、および自然さを大幅に向上させ、かなり小さいデータセットで訓練されたにもかかわらず、従来の最高性能のTTSモデルを上回る性能を示した。

Takeaways、Limitations

Takeaways:
自動音声認識および話者認証モデルを活用した好みソート技術と分類器なしのガイド技術により、TTSモデルの制御可能性と合成音声の品質を大幅に向上させました。
小さなデータセットでも最先端のパフォーマンスを達成し、データ効率を証明しました。
目標話者の類似性、明瞭性、自然さをすべて向上させました。
Limitations:
使用されたデータセットのサイズが明示的に示されていないため、他の大規模データセットと比較してパフォーマンス評価が不足する可能性があります。
論文で言及されている「小さいデータセット」の具体的なサイズと他のモデルとのデータセットの違いの詳細な分析が必要です。
特定の言語または話者に対する偏りがあるかどうかの分析が不足しています。
👍