Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

USM-VC: Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion

Created by
  • Haebom

저자

Na Li, Chuke Wang, Yu Gu, Zhifeng Li

개요

본 논문은 음성 변환(Voice Conversion, VC)에서 소스 화자의 음색 정보가 콘텐츠 표현에 내재되어 타겟 화자와의 유사성을 저하시키는 음색 누출 문제를 해결하는 새로운 방법을 제시합니다. 이를 위해, 콘텐츠 추출기에 Universal Semantic Matching (USM) residual block을 도입합니다. USM residual block은 두 개의 가중치가 부여된 가지로 구성됩니다. 첫 번째 가지는 다양한 화자의 음성을 사용하여 통계적으로 계산된 보편적인 의미론적 사전(universal semantic dictionary) 기반의 Content Feature Re-expression (CFR) 모듈로, 음색이 제거된 콘텐츠 표현을 제공합니다. 두 번째 가지는 원본 콘텐츠 계층에 대한 skip connection으로, 세밀한 정보를 보완적으로 제공합니다. CFR 모듈은 각 콘텐츠 프레임을 사전 항목의 가중 선형 조합으로 표현하여 음색이 제거된 콘텐츠 표현을 얻습니다. 다양한 VC 프레임워크에서의 광범위한 실험을 통해 제안된 방법이 음색 누출을 효과적으로 완화하고 타겟 화자와의 유사성을 크게 향상시킨다는 것을 보여줍니다.

시사점, 한계점

시사점:
음색 누출 문제를 효과적으로 해결하는 새로운 음성 변환 방법 제시.
보편적인 의미론적 사전을 이용하여 화자 독립적인 콘텐츠 표현 생성.
다양한 VC 프레임워크에서의 성능 향상을 실험적으로 검증.
타겟 화자와의 유사성을 크게 향상시킴.
한계점:
보편적인 의미론적 사전의 생성에 사용된 음성 데이터의 다양성 및 크기에 대한 의존성.
특정 언어 또는 발화 스타일에는 일반화되지 않을 가능성.
CFR 모듈의 계산 복잡도 및 실시간 처리 가능성에 대한 추가적인 연구 필요.
👍