Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering

Created by
  • Haebom

作者

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

概要

本論文は、既存のText-to-Speech(TTS)システムの感情制御が不完全で制限的であることを指摘し、訓練なしに微調整された音声感情制御(変換、補間、削除)を可能にする新しい方法であるEmoSteer-TTSを提案します。 EmoSteer-TTSは、フローマッチングベースのTTSモデルの内部活性化値を修正することにより、合成音声の感情的トーンを効果的に変更する原理を利用する。アクティベーション抽出、感情トークン検索、推論時間ステアリングなど、トレーニングを必要としない効率的なアルゴリズムを開発して、さまざまな事前トレーニング済みモデルに統合できます。さまざまな話者の感情的な音声データセットを構築して効果的なステアリングベクトルを導き出し、実験結果は既存の最高性能(SOTA)を上回る微調整可能で解釈可能で連続的な音声感情制御を示しています。この研究は、訓練なしに微調整された連続的な感情制御を達成した最初の方法です。

Takeaways、Limitations

Takeaways:
訓練なしで微調整された連続的な音声感情制御を可能にする新しい方法の提示。
既存のTTSモデルに簡単に統合できる効率的なアルゴリズムの開発
様々な事前訓練されたTTSモデルで優れた性能を実証。
解釈可能で直感的な感情制御を提供します。
Limitations:
提案された方法の効果は、特定のタイプのTTSモデル(フローマッチングベース)に依存し得る。
様々な感情表現に対する一般化性能に関するさらなる研究の必要性
構築された感情音声データセットの範囲と品質によっては、パフォーマンスが影響を受ける可能性があります。
実際のアプリケーションでの堅牢性と一般化性能の評価がさらに必要です。
👍