Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting

Created by
  • Haebom

저자

Guanrou Yang, Chen Yang, Qian Chen, Ziyang Ma, Wenxi Chen, Wen Wang, Tianrui Wang, Yifan Yang, Zhikang Niu, Wenrui Liu, Fan Yu, Zhihao Du, Zhifu Gao, ShiLiang Zhang, Xie Chen

개요

본 논문은 감정 표현 제어가 가능한 새로운 TTS 모델인 EmoVoice를 제안합니다. EmoVoice는 대규모 언어 모델(LLM)을 활용하여 자유롭고 세밀한 자연어 감정 제어를 가능하게 합니다. 또한, 사고의 연쇄(CoT) 및 모달리티의 연쇄(CoM) 기법에서 영감을 받아, 음소 토큰과 오디오 토큰을 병렬로 출력하는 음소 부스트 변형 설계를 통해 내용 일관성을 향상시킵니다. 고품질의 40시간 분량 영어 감정 데이터셋인 EmoVoice-DB도 함께 소개하는데, 이 데이터셋은 표현력 있는 음성과 세밀한 감정 레이블 및 자연어 설명을 포함합니다. EmoVoice는 합성 훈련 데이터만을 사용하여 영어 EmoVoice-DB 테스트 세트에서, 그리고 자체 데이터를 사용하여 중국어 Secap 테스트 세트에서 최첨단 성능을 달성합니다. 더불어, 기존 감정 평가 지표의 신뢰성과 인간의 지각 선호도와의 정렬을 조사하고, 최첨단 다중 모달 LLM인 GPT-4o-audio 및 Gemini를 사용하여 감정적 음성을 평가합니다. 데이터셋, 코드, 체크포인트 및 데모 샘플은 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
LLM을 활용한 자유롭고 세밀한 자연어 감정 제어가 가능한 TTS 모델 EmoVoice 제안.
음소 부스트 변형 설계를 통한 내용 일관성 향상.
고품질 영어 감정 데이터셋 EmoVoice-DB 공개.
합성 데이터만으로 최첨단 성능 달성.
기존 감정 평가 지표의 신뢰성 및 인간 지각 선호도와의 정렬 연구.
최첨단 다중 모달 LLM을 이용한 감정적 음성 평가.
코드, 데이터셋, 체크포인트 및 데모 샘플 공개를 통한 연구 재현성 확보.
한계점:
EmoVoice-DB가 영어 중심으로 구성되어 다른 언어에 대한 일반화 가능성은 제한적일 수 있음.
합성 데이터만으로 훈련되었으므로, 실제 음성 데이터를 사용한 훈련 결과와의 비교 연구 필요.
기존 감정 평가 지표의 한계에 대한 추가적인 연구가 필요하며, 더욱 정교한 평가 방법론 개발이 필요함.
GPT-4o-audio 및 Gemini와 같은 LLM의 평가 결과에 대한 신뢰성 검증이 필요함.
👍