본 논문은 음성 복제(VC)에 강력한 워터마킹 기법인 VoiceMark를 제안합니다. 기존 방법들은 워터마킹된 오디오로 학습된 전통적인 VC 모델에 대해서는 효과적으로 추적이 가능하지만, 모델이 오디오 프롬프트로부터 오디오를 합성하는 제로샷 VC 시나리오에서는 실패합니다. VoiceMark는 화자 특정 잠재 변수를 워터마킹 매체로 활용하여 제로샷 VC 과정을 거쳐 합성된 오디오로 워터마킹을 전달하는 최초의 제로샷 VC 저항성 워터마킹 방법입니다. 또한, 왜곡에 대한 강건성을 높이기 위해 VC 시뮬레이션 증강 및 VAD 기반 손실을 도입했습니다. 여러 제로샷 VC 모델에 대한 실험 결과, VoiceMark는 제로샷 VC 합성 후 워터마킹 탐지에서 95% 이상의 정확도를 달성하여 기존 방법(약 50%)을 크게 능가함을 보여줍니다. 코드와 데모는 https://huggingface.co/spaces/haiyunli/VoiceMark 에서 확인할 수 있습니다.