Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CloneShield: A Framework for Universal Perturbation Against Zero-Shot Voice Cloning

Created by
  • Haebom

저자

Renyuan Li, Zhibo Liang, Haichuan Zhang, Tianyu Shi, Zhiyuan Cheng, Jia Shi, Carl Yang, Mingjie Tang

개요

본 논문은 짧은 참조 오디오만으로도 고정확도의 음성 복제가 가능한 최근의 TTS 음성 복제 기술의 프라이버시 문제를 해결하기 위해, 제로샷 음성 복제에 대한 방어를 위한 범용 시간 영역 적대적 섭동 프레임워크인 CloneShield를 제안합니다. CloneShield는 다양한 발화에 대해 강력한 보호 기능을 제공하며, 합성된 텍스트에 대한 사전 지식이 필요하지 않습니다. 멜 스펙트로그램 표현을 통해 적대적 섭동을 분해하고 각 샘플에 대해 미세 조정하여 자연스러운 청각적 인식을 유지하며, 다중 목적 최적화 문제로 섭동 생성을 공식화하고 다중 기울기 하강 알고리즘(MGDA)을 제안하여 강력한 보호 기능을 제공합니다. 실험 결과, 보호된 입력의 오디오 품질은 거의 원본 수준(PESQ = 3.90, SRS = 0.93)을 유지하면서, 복제된 샘플의 화자 유사성 및 음성 품질을 크게 저하(PESQ = 1.07, SRS = 0.08)시키는 것으로 나타났습니다.

시사점, 한계점

시사점:
제로샷 음성 복제 공격에 대한 효과적인 방어 메커니즘을 제시합니다.
다양한 화자와 발화에 대해 강건한 보호 기능을 제공합니다.
보호된 오디오의 품질 저하를 최소화하면서 복제된 오디오의 품질을 크게 저하시킵니다.
멜 스펙트로그램 기반의 섭동 분해 및 미세 조정을 통해 자연스러운 청각적 인식을 유지합니다.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다. (다양한 TTS 모델 및 공격 방법에 대한 테스트 추가 필요)
실제 환경에서의 성능 평가가 필요합니다. (다양한 노이즈 및 왜곡 환경에서의 테스트 추가 필요)
계산 비용이 높을 수 있습니다. (MGDA 알고리즘의 효율성 개선 필요)
새로운 음성 복제 기법에 대한 적응성에 대한 추가 연구가 필요합니다.
👍