Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech

Created by
  • Haebom

저자

Yu Pan, Yanni Hu, Yuguang Yang, Jixun Yao, Jianhao Ye, Hongbin Zhou, Lei Ma, Jianjun Zhao

개요

ClapFM-EVC는 자연어 프롬프트 또는 참조 음성을 사용하여 높은 충실도의 감정적 음성 변환(EVC)을 생성하는 새로운 프레임워크입니다. 자연어 프롬프트와 범주형 레이블로 안내되는 감정적 대조 언어-오디오 사전 훈련 모델인 EVC-CLAP을 제안하여 음성과 텍스트 모드 간에 미세한 감정 요소를 추출하고 정렬합니다. 또한 적응형 강도 게이트가 있는 FuEncoder를 사용하여 사전 훈련된 ASR 모델의 음성 후보 그램과 감정적 특징을 원활하게 융합합니다. 마지막으로, 캡처된 특징을 조건으로 하는 흐름 일치 모델을 제안하여 원본 음성의 Mel-spectrogram을 재구성하여 감정 표현력과 음성 자연스러움을 향상시킵니다. 주관적 및 객관적 평가를 통해 ClapFM-EVC의 효과를 검증합니다.

시사점, 한계점

시사점:
자연어 프롬프트 또는 참조 음성을 이용한 유연하고 해석 가능한 고품질 감정적 음성 변환 가능성 제시.
EVC-CLAP 모델을 통한 음성과 텍스트 간 미세 감정 요소의 효과적인 추출 및 정렬.
적응형 강도 게이트를 활용한 감정 강도 조절 기능 제공.
흐름 일치 모델을 통한 감정 표현력 및 음성 자연스러움 향상.
한계점:
논문에서 구체적인 한계점이나 향후 연구 방향에 대한 언급이 부족함.
EVC-CLAP, FuEncoder, 흐름 일치 모델의 구체적인 구조 및 파라미터에 대한 자세한 설명 부족.
다양한 감정 및 언어에 대한 일반화 성능에 대한 추가적인 연구 필요.
객관적 및 주관적 평가 결과의 상세 내용 부족.
👍