Exploiting Vulnerabilities in Speech Translation Systems through Targeted Adversarial Attacks
Created by
Haebom
Category
Empty
저자
Chang Liu, Haolin Wu, Xi Yang, Kui Zhang, Cong Wu, Weiming Zhang, Nenghai Yu, Tianwei Zhang, Qing Guo, Jie Zhang
개요
본 논문은 점점 더 널리 사용되는 음성 번역(ST) 시스템의 취약성을 탐구합니다. 감지할 수 없는 오디오 조작을 통해 이러한 시스템을 손상시키는 두 가지 방법을 제시합니다. 첫째, 원본 오디오에 섭동을 주입하는 방법과 둘째, 목표 번역을 유도하도록 설계된 적대적 음악을 생성하는 방법입니다. 실제 환경에서의 공격도 수행했습니다. 실험 결과, 신중하게 제작된 오디오 섭동은 번역 모델을 오도하여 목표로 하는 유해한 출력을 생성할 수 있으며, 적대적 음악은 음악의 자연스러운 감지 불가능성을 이용하여 이 목표를 더 은밀하게 달성할 수 있음을 보여줍니다. 이러한 공격은 여러 언어와 번역 모델에서 효과적이며, 현재 ST 아키텍처의 전반적인 취약성을 강조합니다. 이 연구의 의미는 즉각적인 보안 문제를 넘어 신경 음성 처리 시스템의 해석 가능성과 강건성에 대한 통찰력을 제공합니다. 본 연구 결과는 오디오 시스템 분야에서 고급 방어 메커니즘과 더욱 탄력적인 아키텍처의 필요성을 강조합니다. 자세한 내용과 샘플은 https://adv-st.github.io 에서 확인할 수 있습니다.