Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting

Created by
  • Haebom

作者

Guanrou Yang, Chen Yang, Qian Chen, Ziyang Ma, Wenxi Chen, Wen Wang, Tianrui Wang, Yifan Yang, Zhikang Niu, Wenrui Liu, Fan Yu, Zhihao Du, Zhifu Gao, ShiLiang Zhang, Xie Chen

概要

本稿では、感情表現の制御が可能な新しいTTSモデルであるEmoVoiceを提案します。 EmoVoiceは、大規模な言語モデル(LLM)を活用して、自由で細かい自然言語感情制御を可能にします。また、思考の連鎖(CoT)やモダリティの連鎖(CoM)技術に触発され、音素トークンとオーディオトークンを並列に出力する音素ブースト変形設計により、コンテンツの一貫性を向上させます。高品質の40時間分の英語感情データセットであるEmoVoice-DBも一緒に紹介します。このデータセットには、表現力のある音声と細かい感情ラベルと自然言語の説明が含まれています。 EmoVoiceは、合成トレーニングデータのみを使用して英語のEmoVoice-DBテストセットで、独自のデータを使用して中国のSecapテストセットで最先端のパフォーマンスを達成します。さらに、既存の感情評価指標の信頼性と人間の知覚の好みとの整列を調べ、最先端のマルチモーダルLLMであるGPT-4o-audioとGeminiを使用して感情的な声を評価します。データセット、コード、チェックポイント、デモサンプルはGitHubで公開されています。

Takeaways、Limitations

Takeaways:
LLMを活用した自由で細かい自然言語感情制御が可能なTTSモデルEmoVoice提案
音素ブースト変形設計によるコンテンツの一貫性の向上
高品質英語感情データセットEmoVoice-DB公開。
合成データだけで最先端の性能を達成。
既存の感情評価指標の信頼性と人間の知覚の好みとの整列研究
最先端マルチモーダルLLMを用いた感情的音声評価
コード、データセット、チェックポイント、デモサンプルの公開による研究の再現性の確保。
Limitations:
EmoVoice-DBは英語中心に構成されており、他の言語の一般化の可能性は限られている可能性があります。
合成データのみで訓練されたので、実際の音声データを用いた訓練結果との比較研究が必要。
既存の感情評価指標の限界に関する追加の研究が必要であり、より洗練された評価方法論の開発が必要です。
GPT-4o-audioやGeminiなどのLLMの評価結果の信頼性検証が必要である。
👍