Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VoiceMark: Zero-Shot Voice Cloning-Resistant Watermarking Approach Leveraging Speaker-Specific Latents

Created by
  • Haebom

저자

Haiyun Li, Zhiyong Wu, Xiaofeng Xie, Jingran Xie, Yaoxun Xu, Hanyang Peng

개요

본 논문은 음성 복제(VC)에 강력한 워터마킹 기법인 VoiceMark를 제안합니다. 기존 방법들은 워터마킹된 오디오로 학습된 전통적인 VC 모델에 대해서는 효과적으로 추적이 가능하지만, 모델이 오디오 프롬프트로부터 오디오를 합성하는 제로샷 VC 시나리오에서는 실패합니다. VoiceMark는 화자 특정 잠재 변수를 워터마킹 매체로 활용하여 제로샷 VC 과정을 거쳐 합성된 오디오로 워터마킹을 전달하는 최초의 제로샷 VC 저항성 워터마킹 방법입니다. 또한, 왜곡에 대한 강건성을 높이기 위해 VC 시뮬레이션 증강 및 VAD 기반 손실을 도입했습니다. 여러 제로샷 VC 모델에 대한 실험 결과, VoiceMark는 제로샷 VC 합성 후 워터마킹 탐지에서 95% 이상의 정확도를 달성하여 기존 방법(약 50%)을 크게 능가함을 보여줍니다. 코드와 데모는 https://huggingface.co/spaces/haiyunli/VoiceMark 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
제로샷 음성 복제에 대해서도 효과적으로 워터마킹을 적용하고 탐지할 수 있는 최초의 방법 제시.
기존 방법보다 훨씬 높은 정확도(95% 이상) 달성.
VC 시뮬레이션 증강 및 VAD 기반 손실을 통해 왜곡에 대한 강건성 향상.
음성 복제 저작권 보호 및 추적 기술 발전에 기여.
한계점:
다양한 유형의 제로샷 VC 모델에 대한 일반화 성능에 대한 추가적인 연구 필요.
실제 환경에서의 잡음이나 왜곡에 대한 robustness 한계 확인 및 개선 필요.
워터마킹 크기 및 복잡도에 따른 성능 저하 가능성에 대한 분석 필요.
워터마킹 제거 또는 위변조 공격에 대한 취약성 평가 및 방어 기술 개발 필요.
👍