SpotlightTTS는 참조 음성에서 추출한 스타일 임베딩을 기반으로 하는 다양한 방법을 통해 표현력이 풍부한 텍스트 음성 변환 (TTS)의 발전을 이룬 최신 기술이다. 특히, 음성 인지 스타일 추출과 스타일 방향 조정을 통해 스타일을 강조한다. 음성 인지 스타일 추출은 표현력을 향상시키기 위해 다양한 음성 영역에서 연속성을 유지하면서 스타일에 매우 관련 있는 유성음 영역에 집중한다. 추출된 스타일의 방향을 TTS 모델에 최적으로 통합하기 위해 조정하여 음성 품질을 개선한다. 실험 결과, SpotlightTTS는 표현력, 전체 음성 품질 및 스타일 전송 능력 측면에서 기준 모델보다 우수한 성능을 달성했다.