VoiceCloak: A Multi-Dimensional Defense Framework against Unauthorized Diffusion-based Voice Cloning
Created by
Haebom
저자
Qianyue Hu, Junyan Wu, Wei Lu, Xiangyang Luo
개요
본 논문은 확산 모델(Diffusion Models, DMs) 기반의 음성 복제(Voice Cloning, VC) 기술의 악의적 오용 위험 증가에 대응하기 위해, VoiceCloak이라는 다차원적 선제적 방어 프레임워크를 제시합니다. VoiceCloak은 DM의 복잡한 생성 메커니즘을 고려하여, 적대적 섭동(adversarial perturbations)을 참조 오디오에 도입함으로써 음성 복제 과정을 방해합니다. 구체적으로, 화자 식별 혼란을 위해 청각적 지각 원리를 기반으로 표상 학습 임베딩을 왜곡하여 화자 식별 변화를 극대화하고, 주의 집중 맥락(attention context)과 같은 조건부 안내 과정을 방해하여 설득력 있는 복제에 필수적인 음성 특징의 정렬을 방지합니다. 또한, 고품질 음성 생성으로부터 역방향 경로를 적극적으로 이탈시키기 위해 점수 크기 증폭(score magnitude amplification)을 도입하고, 잡음 기반 의미 왜곡(noise-guided semantic corruption)을 통해 DM이 포착하는 구조적 음성 의미를 방해하여 출력 품질을 저하시킵니다. 실험 결과, VoiceCloak은 DM 기반의 무단 음성 복제에 대해 뛰어난 방어 성공률을 보였습니다. VoiceCloak의 오디오 샘플은 https://voice-cloak.github.io/VoiceCloak/ 에서 확인 가능합니다.