Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech

Created by
  • Haebom

作者

Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu

概要

IndexTTS2は、音声の自然性は優れているが持続時間制御が困難な従来の自己回帰ベースの大規模テキスト音声変換(TTS)モデルの限界を克服するために提案されたモデルです。トークン数明示的指定による正確な音声持続時間制御とトークン数未指定自由生成モードをサポートし、感情表現と話者性別を分離して音色と感情を独立して制御することができます。 GPT潜在表現を活用して感情表現が強い音声の明瞭性を高め、Qwen3微調整に基づくソフト指示メカニズムで感情制御の利便性を向上させました。様々なデータセット実験の結果、単語エラー率、話者類似度、感情忠実度の面で最先端のゼロショットTTSモデルを凌駕する性能を示した。

Takeaways、Limitations

Takeaways:
自己回帰ベースTTSモデルにおける高精度音声持続制御問題の解決
音色と感情の独立した制御が可能
ゼロショット環境で高精度の音色と感情を再現
GPT潜在表現の活用による感情表現音声の明瞭性の向上
ソフト指示機構による感情制御の利便性の向上
さまざまな評価指標で最先端のパフォーマンスを達成
Limitations:
論文で明示的に言及されているLimitationsはありません。追加の実験やさまざまなデータセットの適用によるパフォーマンス検証が必要になる場合があります。
👍