ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech
Created by
Haebom
저자
Yu Pan, Yanni Hu, Yuguang Yang, Jixun Yao, Jianhao Ye, Hongbin Zhou, Lei Ma, Jianjun Zhao
개요
ClapFM-EVC는 자연어 프롬프트 또는 참조 음성을 사용하여 높은 충실도의 감정적 음성 변환(EVC)을 생성하는 새로운 프레임워크입니다. 자연어 프롬프트와 범주형 레이블로 안내되는 감정적 대조 언어-오디오 사전 훈련 모델인 EVC-CLAP을 제안하여 음성과 텍스트 모드 간에 미세한 감정 요소를 추출하고 정렬합니다. 또한 적응형 강도 게이트가 있는 FuEncoder를 사용하여 사전 훈련된 ASR 모델의 음성 후보 그램과 감정적 특징을 원활하게 융합합니다. 마지막으로, 캡처된 특징을 조건으로 하는 흐름 일치 모델을 제안하여 원본 음성의 Mel-spectrogram을 재구성하여 감정 표현력과 음성 자연스러움을 향상시킵니다. 주관적 및 객관적 평가를 통해 ClapFM-EVC의 효과를 검증합니다.
시사점, 한계점
•
시사점:
◦
자연어 프롬프트 또는 참조 음성을 이용한 유연하고 해석 가능한 고품질 감정적 음성 변환 가능성 제시.
◦
EVC-CLAP 모델을 통한 음성과 텍스트 간 미세 감정 요소의 효과적인 추출 및 정렬.
◦
적응형 강도 게이트를 활용한 감정 강도 조절 기능 제공.
◦
흐름 일치 모델을 통한 감정 표현력 및 음성 자연스러움 향상.
•
한계점:
◦
논문에서 구체적인 한계점이나 향후 연구 방향에 대한 언급이 부족함.
◦
EVC-CLAP, FuEncoder, 흐름 일치 모델의 구체적인 구조 및 파라미터에 대한 자세한 설명 부족.