Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering

Created by
  • Haebom

作者

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

EmoSteer-TTS: Fine-grained Speech Emotion Control via Activation Steering

概要

EmoSteer-TTSは、トレーニングなしでアクティベーション操作によって微調整された音声感情制御(変換、補間、削除)を達成するための新しいアプローチです。これは、既存のTTSシステムの制限(粗い感情制御、広範なデータセットニーズ)を解決するために開発されました。フローマッチングベースのTTSモデル内の内部活性化サブセットを変更して、合成音声の感情的なトーンを効果的に変更できることを実験的に観察した結果に基づいています。 EmoSteer-TTSは、アクティベーション抽出、感情トークン検索、推論時間操作など、訓練のない効率的なアルゴリズムを開発します。このアルゴリズムは、F5-TTS、CosyVoice2、E2-TTSなどのさまざまな事前トレーニング済みモデルに統合できます。さらに、効果的な操作ベクトルを導出するために、さまざまな話者を含むキュレーションされた感情的な音声データセットを構築しました。実験の結果、EmoSteer-TTSは音声感情の微調整、解釈可能、連続制御を可能にし、SOTA(state-of-the-art)を凌駕します。

Takeaways、Limitations

トレーニングなしで微調整された音声感情制御を達成する最初の方法論
解釈可能で連続的な感情制御が可能
さまざまな事前トレーニング済みTTSモデルに適用可能
トレーニングデータセットの構築
研究内容の具体的なLimitationsは示されていない
👍