Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MPE-TTS: Customized Emotion Zero-Shot Text-To-Speech Using Multi-Modal Prompt

Created by
  • Haebom

저자

Zhichao Wu, Yueteng Kang, Songjun Cao, Long Ma, Qiulin Li, Qun Yang

개요

본 논문은 기존의 단일 프롬프트(참조 음성 또는 텍스트 설명) 기반 제로샷 텍스트 음성 변환(ZS-TTS) 시스템의 유연성 한계를 극복하기 위해 다중 모달 프롬프트 기반의 사용자 지정 감정 ZS-TTS 시스템을 제안합니다. 시스템은 음성을 콘텐츠, 음색, 감정, 운율로 분리하여 텍스트, 이미지 또는 음성으로 감정 프롬프트를 제공할 수 있도록 합니다. 다양한 프롬프트에서 감정 정보를 추출하기 위해 다중 모달 프롬프트 감정 인코더를 제안하고, 운율 분포에 맞추기 위한 운율 예측기와 예측된 운율에서 감정 정보를 보존하기 위한 감정 일관성 손실을 도입합니다. 타겟 멜 스펙트로그램 생성에는 확산 기반 음향 모델을 사용합니다. 객관적 및 주관적 실험을 통해 제안된 시스템이 기존 시스템보다 자연스러움과 유사성 측면에서 우수함을 보여줍니다. 샘플은 https://mpetts-demo.github.io/mpetts_demo/ 에서 확인 가능합니다.

시사점, 한계점

시사점:
다중 모달 프롬프트를 활용하여 기존 ZS-TTS 시스템의 유연성을 향상시켰습니다.
다양한 유형의 감정 프롬프트(텍스트, 이미지, 음성)를 처리할 수 있습니다.
제안된 다중 모달 프롬프트 감정 인코더, 운율 예측기, 감정 일관성 손실이 성능 향상에 기여했습니다.
객관적 및 주관적 평가에서 기존 시스템보다 우수한 성능을 보였습니다.
한계점:
제안된 시스템의 일반화 성능에 대한 추가적인 연구가 필요합니다.
다양한 언어 및 감정에 대한 시스템의 로버스트니스를 평가해야 합니다.
확산 기반 음향 모델의 계산 비용이 높을 수 있습니다.
👍