Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion

Created by
  • Haebom

저자

Na Li, Chuke Wang, Yu Gu, Zhifeng Li

개요

본 논문은 음성 변환(Voice Conversion, VC)에서 타겟 화자와의 유사성을 저해하는 소스 화자의 음색 정보 유출 문제를 해결하기 위한 새로운 방법을 제시합니다. 기존의 콘텐츠 추출기에 잔차 블록(residual block)을 추가하여, 보편적인 의미론적 사전(universal semantic dictionary) 기반의 콘텐츠 특징 재표현(Content Feature Re-expression, CFR) 모듈과 원본 콘텐츠 계층으로의 skip connection을 통해 음색 정보가 제거된 콘텐츠 표현과 미세한 정보를 동시에 활용합니다. CFR 모듈은 다양한 화자의 음성 데이터를 이용하여 통계적으로 계산된, 화자 독립적인 안정적인 의미론적 집합을 제공하며, 음소 사후 확률을 가중치로 사용하여 콘텐츠 프레임을 사전 항목들의 가중 선형 결합으로 표현함으로써 음색 정보가 제거된 콘텐츠 표현을 얻습니다. 다양한 VC 프레임워크에 대한 광범위한 실험을 통해 제안된 방법이 음색 유출을 효과적으로 완화하고 타겟 화자와의 유사성을 크게 향상시킨다는 것을 보여줍니다.

시사점, 한계점

시사점:
음색 유출 문제를 효과적으로 해결하는 새로운 음성 변환 기법 제시
보편적인 의미론적 사전을 활용하여 화자 독립적인 안정적인 콘텐츠 표현 가능
다양한 VC 프레임워크에서 성능 향상 확인
한계점:
보편적인 의미론적 사전 생성에 사용된 음성 데이터의 다양성 및 양에 따라 성능 차이 발생 가능성
CFR 모듈의 계산 복잡도 증가 가능성
실제 환경에서의 잡음이나 변형에 대한 robustness에 대한 추가적인 연구 필요
👍