Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

vec2wav 2.0: Advancing Voice Conversion via Discrete Token Vocoders

Created by
  • Haebom

저자

Yiwei Guo, Zhihan Li, Junjie Li, Chenpeng Du, Hankun Wang, Shuai Wang, Xie Chen, Kai Yu

개요

vec2wav 2.0은 음성 변환(VC)을 발전시키는 새로운 음성 불연속 토큰 부호화기를 제안합니다. 음성 자기 지도 학습 모델의 불연속 토큰을 원본 음성의 콘텐츠 특징으로 사용하고, VC를 프롬프트 부호화 작업으로 취급합니다. 콘텐츠 토큰에서의 화자 음색 손실을 보완하기 위해 WavLM 특징을 사용하여 강력한 음색 의존적 정보를 제공합니다. 음색을 파형 재구성 과정에 더 잘 통합하기 위해 새로운 적응형 Snake 활성화 함수를 제안합니다. 이를 통해 vec2wav 2.0은 다양한 참조 프롬프트가 주어지면 화자 음색을 적절히 변경하도록 학습합니다. 또한 vec2wav 2.0을 효과적으로 훈련하는 데 감독 데이터가 필요하지 않습니다. 실험 결과는 vec2wav 2.0이 모든 다른 기준보다 음질과 화자 유사성 측면에서 상당한 차이로 우수한 성능을 보임을 보여줍니다. 에이블레이션 연구는 제안된 기술의 효과를 검증합니다. 또한 vec2wav 2.0은 단일 언어 말뭉치로만 훈련받았을 때도 경쟁력 있는 교차 언어 VC를 달성합니다. 따라서 vec2wav 2.0은 음성 토큰 부호화기만으로도 음색을 조작할 수 있음을 보여주며, VC와 음성 합성의 한계를 넓힙니다.

시사점, 한계점

시사점:
음성 자기 지도 학습 모델의 불연속 토큰을 이용한 효과적인 음성 변환 방법 제시
WavLM 특징을 활용한 화자 음색 정보 개선 및 적응형 Snake 활성화 함수를 통한 음색 조절
감독 데이터 없이 효과적인 훈련 가능
기존 방법 대비 음질 및 화자 유사성 향상
단일 언어 말뭉치로 교차 언어 음성 변환 가능
음성 토큰 부호화기만으로 음색 조작 가능성 제시, VC 및 음성 합성 기술 발전에 기여
한계점:
논문에서 구체적인 한계점이 언급되지 않음. 추가적인 연구를 통해 실제 적용 시 발생할 수 있는 문제점(예: 특정 언어나 음성 특징에 대한 성능 저하, 계산 비용 등)을 분석할 필요가 있음.
👍