本論文は、表現力のあるテキスト音声変換(TTS)から参照音声から抽出されたスタイル埋め込みに基づくさまざまな方法を提示する最近の研究に基づいて、高品質で表現力のある音声合成の難しさを解決するためにSpotlight-TTSを提案する。 Spotlight-TTSは、音声認識スタイルの抽出とスタイルの方向調整によってスタイルを独占的に強調します。さらに、抽出されたスタイルの方向を調整してTTSモデルに最適に統合することで、音声品質を向上させます。実験の結果、Spotlight-TTSは、表現力、全体的な音声品質、スタイル遷移能力の観点から、基準モデルよりも優れた性能を達成することを示し、音声サンプルは公に利用可能である。