Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Discl-VC: Disentangled Discrete Tokens and In-Context Learning for Controllable Zero-Shot Voice Conversion

Created by
  • Haebom

저자

Kaidi Wang, Wenhao Guan, Ziyue Jiang, Hukai Huang, Peijie Chen, Weijie Wu, Qingyang Hong, Lin Li

개요

본 논문은 기존 제로샷 음성 변환 시스템의 한계점인 화자의 말투 정확도 부족 문제를 해결하기 위해, 내용과 운율 정보를 분리하는 새로운 음성 변환 프레임워크인 Discl-VC를 제안합니다. Discl-VC는 자기 지도 학습 기반 음성 표현에서 내용과 운율 정보를 분리하고, 흐름 일치 변환기를 이용한 문맥 내 학습을 통해 목표 화자의 음성을 합성합니다. 또한, 프롬프트 기반의 비자동회귀 방식으로 이산적인 운율 토큰을 예측하는 마스크 생성 변환기를 도입하여 생성된 음성의 운율을 정밀하게 제어할 수 있도록 합니다. 실험 결과, Discl-VC는 제로샷 음성 변환에서 우수한 성능을 보이며, 합성 음성의 운율 제어 정확도가 매우 높음을 보여줍니다.

시사점, 한계점

시사점:
제로샷 음성 변환에서 화자의 말투를 정확하게 복제하고 목표 화자의 독특한 말투를 모방하는 새로운 방법 제시
흐름 일치 변환기와 마스크 생성 변환기를 결합하여 운율 제어 성능 향상
프롬프트 기반의 비자동회귀 방식을 통해 운율 제어의 정밀도 향상
제로샷 음성 변환 성능 및 운율 제어 정확도 향상을 실험적으로 검증
한계점:
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 연구 필요
다양한 언어 및 화자 특징에 대한 로버스트니스 평가 필요
실제 응용 환경에서의 성능 평가 및 실용성 검증 필요
👍