Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

kNN-SVC: Robust Zero-Shot Singing Voice Conversion with Additive Synthesis and Concatenation Smoothness Optimization

Created by
  • Haebom

저자

Keren Shao, Ke Chen, Matthew Baas, Shlomo Dubnov

개요

본 논문은 Zero-shot Singing Voice Conversion (SVC)에서 kNN-VC 프레임워크의 강건성을 향상시키는 두 가지 새로운 방법을 제시합니다. 첫째, WavLM 기반 kNN-VC의 표현이 고조파를 충분히 반영하지 못해 둔탁한 소리와 링잉 아티팩트가 발생하는 문제를 해결하기 위해, WavLM, 피치 컨투어, 스펙트로그램 간의 일대일 대응 관계를 이용하여 가산 합성을 수행하고, 그 결과를 모델에 통합합니다. 둘째, 기존 kNN-VC가 SVC에서 중요한 지각적 요소인 연결 부분의 매끄러움을 고려하지 않는 문제를 해결하기 위해, 부적합한 kNN 후보를 걸러내고 추론 과정에서 후보들의 가중치 합을 최적화하는 새로운 거리 측정 방법을 제안합니다. 제안된 방법들은 kNN-VC 프레임워크에 기반하여 구현되었지만, 일반적인 연결형 신경망 합성 모델에도 적용 가능합니다. 실험 결과는 제안된 방법들이 강건한 SVC를 달성하는 데 효과적임을 보여줍니다.

시사점, 한계점

시사점:
WavLM의 고조파 표현 한계를 보완하여 Zero-shot SVC의 음질 개선.
새로운 거리 측정 방식을 통해 SVC의 연결 부분 매끄러움 향상.
제안된 기법은 kNN-VC 뿐 아니라 일반적인 연결형 신경망 합성 모델에도 적용 가능.
강건한 Zero-shot SVC를 위한 실질적인 해결책 제시.
한계점:
제안된 방법이 kNN-VC 프레임워크에 특화되어 다른 SVC 모델에 대한 일반화 가능성은 추가 연구 필요.
새로운 거리 측정 방식의 계산 복잡도에 대한 분석 부족.
다양한 음성 데이터셋과 음성 특징에 대한 폭넓은 실험 결과 제시 부족.
👍