VoiceCloak: A Multi-Dimensional Defense Framework against Unauthorized Diffusion-based Voice Cloning
Created by
Haebom
저자
Qianyue Hu, Junyan Wu, Wei Lu, Xiangyang Luo
개요
본 논문은 확산 모델(Diffusion Models, DMs) 기반의 음성 복제(Voice Cloning, VC) 기술의 악의적 오용 위험 증가에 대한 해결책으로, 다차원 선제적 방어 프레임워크인 VoiceCloak을 제안합니다. VoiceCloak은 DMs의 복잡한 생성 메커니즘을 고려하여, 스피커 식별 정보를 흐리게 하고 인식 품질을 저하시켜 무단 VC를 방지합니다. 이는 스피커 식별 표현 학습 임베딩 왜곡, 조건부 안내 과정(특히 어텐션 컨텍스트) 방해, 점수 크기 증폭, 잡음 유도 의미 왜곡 등의 기법을 통해 구현됩니다. 실험 결과, VoiceCloak은 무단 확산 모델 기반 음성 복제에 대한 뛰어난 방어 성공률을 보였습니다. VoiceCloak의 오디오 샘플은 https://voice-cloak.github.io/VoiceCloak/ 에서 확인 가능합니다.