Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting

Created by
  • Haebom

저자

Guanrou Yang, Chen Yang, Qian Chen, Ziyang Ma, Wenxi Chen, Wen Wang, Tianrui Wang, Yifan Yang, Zhikang Niu, Wenrui Liu, Fan Yu, Zhihao Du, Zhifu Gao, ShiLiang Zhang, Xie Chen

개요

본 논문은 감정 표현을 제어할 수 있는 새로운 TTS 모델인 EmoVoice를 제안합니다. EmoVoice는 대규모 언어 모델(LLM)을 활용하여 자유롭고 세밀한 자연어 감정 제어를 가능하게 합니다. 또한, 사고의 연쇄(CoT) 및 모달리티의 연쇄(CoM) 기법에서 영감을 받아, 음소 토큰과 오디오 토큰을 병렬로 출력하는 음소 부스트 변형 설계를 통해 내용 일관성을 향상시킵니다. 고품질의 40시간 분량 영어 감정 데이터셋인 EmoVoice-DB도 함께 소개하는데, 이 데이터셋은 표현력 있는 음성과 세밀한 감정 라벨 및 자연어 설명을 포함합니다. EmoVoice는 합성 훈련 데이터만을 사용하여 영어 EmoVoice-DB 테스트 세트에서, 그리고 자체 데이터를 사용하여 중국어 Secap 테스트 세트에서 최첨단 성능을 달성합니다. 또한, 기존 감정 평가 지표의 신뢰성과 인간의 지각 선호도와의 일치성을 조사하고, 최첨단 다중 모달 LLM인 GPT-4o-audio 및 Gemini를 사용하여 감정적 음성을 평가합니다. 데모 샘플은 링크에서 확인할 수 있으며, 데이터셋, 코드 및 체크포인트는 공개될 예정입니다.

시사점, 한계점

시사점:
LLM을 활용한 자유롭고 세밀한 자연어 감정 제어 가능성 제시.
음소 부스트 변형 설계를 통한 TTS 모델의 내용 일관성 향상.
고품질의 새로운 감정 데이터셋 EmoVoice-DB 공개.
합성 데이터만으로 최첨단 성능 달성.
기존 감정 평가 지표의 신뢰성 및 인간 지각 선호도와의 일치성에 대한 심층적 분석.
최첨단 다중 모달 LLM을 활용한 감정적 음성 평가.
한계점:
현재 영어와 중국어에 대한 결과만 제시되어 다른 언어에 대한 일반화 가능성은 불확실함.
합성 데이터를 주로 사용했으므로 실제 데이터에 대한 일반화 성능 검증 필요.
기존 감정 평가 지표의 한계점을 지적했으나, 새로운 평가 지표 제안은 없음.
데이터셋 및 코드 공개는 추후 예정임.
👍