VoiceCloak: A Multi-Dimensional Defense Framework against Unauthorized Diffusion-based Voice Cloning
Created by
Haebom
저자
Qianyue Hu, Junyan Wu, Wei Lu, Xiangyang Luo
개요
본 논문은 확산 모델(Diffusion Models, DMs) 기반의 음성 복제(Voice Cloning, VC) 기술의 악용 가능성 증가에 대한 우려를 해결하기 위해, 다차원 선제적 방어 프레임워크인 VoiceCloak을 제시합니다. VoiceCloak은 DM의 복잡한 생성 메커니즘을 고려하여, 참조 오디오에 적대적 섭동(adversarial perturbations)을 도입하여 스피커 식별을 난독화하고 인식 품질을 저하시키는 것을 목표로 합니다. 구체적으로, 스피커 식별 난독화를 위해 청각적 지각 원리를 기반으로 표현 학습 임베딩을 왜곡하여 식별 변화를 극대화하고, 조건부 안내 과정(특히 어텐션 컨텍스트)을 방해하여 설득력 있는 복제에 필수적인 음성 특징의 정렬을 방지합니다. 또한, 고품질 음성 생성으로부터 역방향 경로를 적극적으로 유도하기 위해 점수 크기 증폭을 도입하고, DM이 포착하는 구조적 음성 의미론을 방해하여 출력 품질을 저하시키는 노이즈 기반 의미론적 손상을 추가적으로 활용합니다. 광범위한 실험을 통해 VoiceCloak의 뛰어난 방어 성공률을 확인하였으며, 음성 샘플은 https://voice-cloak.github.io/VoiceCloak/ 에서 확인할 수 있습니다.