Advait Joglekar, Divyanshu Singh, Rooshil Rohit Bhatia, S. Umesh
개요
본 논문은 제로샷 음성 변환(Voice Conversion)의 성능 향상에 초점을 맞추고, 특히 제로샷 교차 언어 설정에서의 어려움을 해결하는 새로운 접근법을 제시합니다. 기존 방법들의 한계점으로 지적되는 미지의 언어 및 억양에 대한 일반화 문제를 해결하기 위해, 자기 지도 학습 모델에서 얻은 이산적인 음성 표현과 비자동회귀 확산-트랜스포머 기반 조건부 흐름 매칭 음성 디코더를 결합하는 간단하면서도 효과적인 방법을 제안합니다. 이 방법은 다중 인코더를 사용하여 음성 특징을 분리할 필요 없이 순수하게 텍스트 없이 자기 지도 학습 방식으로 음성 변환 모델을 학습할 수 있도록 합니다. 특히, 미지의 언어에 대해서도 제로샷 교차 언어 설정에서 우수한 성능을 보이는 것을 실험적으로 보여줍니다. 데모는 https://ez-vc.github.io/EZ-VC-Demo/ 에서 확인할 수 있습니다.