본 논문은 감정 표현 제어가 가능한 새로운 TTS 모델인 EmoVoice를 제안합니다. EmoVoice는 대규모 언어 모델(LLM)을 활용하여 자유롭고 세밀한 자연어 감정 제어를 가능하게 합니다. 또한, 사고의 연쇄(CoT) 및 모달리티의 연쇄(CoM) 기법에서 영감을 받아, 음소 토큰과 오디오 토큰을 병렬로 출력하는 음소 부스트 변형 설계를 통해 내용 일관성을 향상시킵니다. 고품질의 40시간 분량 영어 감정 데이터셋인 EmoVoice-DB도 함께 소개하는데, 이 데이터셋은 표현력 있는 음성과 세밀한 감정 레이블 및 자연어 설명을 포함합니다. EmoVoice는 합성 훈련 데이터만을 사용하여 영어 EmoVoice-DB 테스트 세트에서, 그리고 자체 데이터를 사용하여 중국어 Secap 테스트 세트에서 최첨단 성능을 달성합니다. 더불어, 기존 감정 평가 지표의 신뢰성과 인간의 지각 선호도와의 정렬을 조사하고, 최첨단 다중 모달 LLM인 GPT-4o-audio 및 Gemini를 사용하여 감정적 음성을 평가합니다. 데이터셋, 코드, 체크포인트 및 데모 샘플은 GitHub에서 공개됩니다.
시사점, 한계점
•
시사점:
◦
LLM을 활용한 자유롭고 세밀한 자연어 감정 제어가 가능한 TTS 모델 EmoVoice 제안.
◦
음소 부스트 변형 설계를 통한 내용 일관성 향상.
◦
고품질 영어 감정 데이터셋 EmoVoice-DB 공개.
◦
합성 데이터만으로 최첨단 성능 달성.
◦
기존 감정 평가 지표의 신뢰성 및 인간 지각 선호도와의 정렬 연구.
◦
최첨단 다중 모달 LLM을 이용한 감정적 음성 평가.
◦
코드, 데이터셋, 체크포인트 및 데모 샘플 공개를 통한 연구 재현성 확보.
•
한계점:
◦
EmoVoice-DB가 영어 중심으로 구성되어 다른 언어에 대한 일반화 가능성은 제한적일 수 있음.
◦
합성 데이터만으로 훈련되었으므로, 실제 음성 데이터를 사용한 훈련 결과와의 비교 연구 필요.
◦
기존 감정 평가 지표의 한계에 대한 추가적인 연구가 필요하며, 더욱 정교한 평가 방법론 개발이 필요함.
◦
GPT-4o-audio 및 Gemini와 같은 LLM의 평가 결과에 대한 신뢰성 검증이 필요함.