MPE-TTS: Customized Emotion Zero-Shot Text-To-Speech Using Multi-Modal Prompt
Created by
Haebom
저자
Zhichao Wu, Yueteng Kang, Songjun Cao, Long Ma, Qiulin Li, Qun Yang
개요
본 논문은 기존의 단일 프롬프트(참조 음성 또는 텍스트 설명) 기반 제로샷 텍스트 음성 변환(ZS-TTS) 시스템의 유연성 한계를 극복하기 위해 다중 모달 프롬프트 기반의 사용자 지정 감정 ZS-TTS 시스템을 제안합니다. 시스템은 음성을 콘텐츠, 음색, 감정, 운율로 분리하여 텍스트, 이미지 또는 음성으로 감정 프롬프트를 제공할 수 있도록 합니다. 다양한 프롬프트에서 감정 정보를 추출하기 위해 다중 모달 프롬프트 감정 인코더를 제안하고, 운율 분포에 맞추기 위한 운율 예측기와 예측된 운율에서 감정 정보를 보존하기 위한 감정 일관성 손실을 도입합니다. 타겟 멜 스펙트로그램 생성에는 확산 기반 음향 모델을 사용합니다. 객관적 및 주관적 실험을 통해 제안된 시스템이 기존 시스템보다 자연스러움과 유사성 측면에서 우수함을 보여줍니다. 샘플은 https://mpetts-demo.github.io/mpetts_demo/ 에서 확인 가능합니다.