When Humans Growl and Birds Speak: High-Fidelity Voice Conversion from Human to Animal and Designed Sounds
Created by
Haebom
저자
Minsu Kang, Seolhee Lee, Choonghyeon Lee, Namhyun Cho
개요
본 논문은 인간의 음성을 동물 소리 또는 디자인된 음성으로 변환하는 인간-비인간 음성 변환(H2NH-VC) 기술에 관한 연구이다. 기존 연구들이 주로 개 짖는 소리와 16kHz 또는 22.05kHz 오디오 변환에 집중한 것과 달리, 이 연구는 사자 울음소리, 새소리와 같은 자연음과 합성된 으르렁거림과 같은 디자인된 음성을 포함한 다양한 비음성 사운드를 다룬다. 다양한 비음성 사운드와 44.1kHz 고품질 오디오 변환을 처리하기 위해, 인간과 비인간 음성 모두에 최적화된 전처리 파이프라인과 향상된 CVAE 기반 H2NH-VC 모델을 제안한다. 실험 결과, 제안된 방법은 품질, 자연스러움, 유사성 MOS 측면에서 기존 방법보다 우수한 성능을 보이며 다양한 비인간 음색에 걸쳐 효과적인 음성 변환을 달성했다. 데모 샘플은 https://nc-ai.github.io/speech/publications/nonhuman-vc/ 에서 확인 가능하다.