E2E-VGuard: Adversarial Prevention for Production LLM-based End-To-End Speech Synthesis
Created by
Haebom
Category
Empty
저자
Zhisheng Zhang, Derui Wang, Yifan Mi, Zhiyong Wu, Jie Gao, Yuxin Cao, Kai Ye, Minhui Xue, Jie Hao
개요
본 논문은 음성 합성 기술의 발전에 따른 보안 위협, 특히 LLM 기반 음성 합성 및 ASR 기반 E2E(End-to-End) 음성 합성을 겨냥한 새로운 방어 프레임워크 E2E-VGuard를 제안한다. E2E-VGuard는 인코더 앙상블, 특징 추출기, ASR 타겟 적대적 예제, 그리고 정신 음향 모델을 활용하여 음색 및 발음을 보호하고, 실제 환경에서의 검증도 수행했다.
시사점, 한계점
•
시사점:
◦
LLM 기반 음성 합성 및 ASR 기반 E2E 음성 합성의 보안 취약성을 해결하는 새로운 방어 프레임워크 제시.
◦
음색 및 발음 보호를 위한 다양한 기술 (인코더 앙상블, 특징 추출기, ASR 타겟 적대적 예제, 정신 음향 모델) 활용.