본 논문은 감정 표현을 제어할 수 있는 새로운 TTS 모델인 EmoVoice를 제안합니다. EmoVoice는 대규모 언어 모델(LLM)을 활용하여 자유롭고 세밀한 자연어 감정 제어를 가능하게 합니다. 또한, 사고의 연쇄(CoT) 및 모달리티의 연쇄(CoM) 기법에서 영감을 받아, 음소 토큰과 오디오 토큰을 병렬로 출력하는 음소 부스트 변형 설계를 통해 내용 일관성을 향상시킵니다. 고품질의 40시간 분량 영어 감정 데이터셋인 EmoVoice-DB도 함께 소개하는데, 이 데이터셋은 표현력 있는 음성과 세밀한 감정 라벨 및 자연어 설명을 포함합니다. EmoVoice는 합성 훈련 데이터만을 사용하여 영어 EmoVoice-DB 테스트 세트에서, 그리고 자체 데이터를 사용하여 중국어 Secap 테스트 세트에서 최첨단 성능을 달성합니다. 또한, 기존 감정 평가 지표의 신뢰성과 인간의 지각 선호도와의 일치성을 조사하고, 최첨단 다중 모달 LLM인 GPT-4o-audio 및 Gemini를 사용하여 감정적 음성을 평가합니다. 데모 샘플은 링크에서 확인할 수 있으며, 데이터셋, 코드 및 체크포인트는 공개될 예정입니다.