AudioJailbreak: Jailbreak Attacks against End-to-End Large Audio-Language Models
Created by
Haebom
저자
Guangke Chen, Fu Song, Zhe Zhao, Xiaojun Jia, Yang Liu, Yanchen Qiao, Weizhe Zhang
개요
본 논문은 대규모 오디오-언어 모델(LALM)에 대한 탈옥 공격(Jailbreak attack)의 효과, 적용성, 실용성을 향상시키는 새로운 오디오 탈옥 공격 기법인 AudioJailbreak을 제안한다. 기존의 텍스트 기반 탈옥 공격이 음성 합성(TTS)을 통해 LALM에 적용하기 어려운 점을 실험적으로 보여주고, AudioJailbreak은 비동기적(asynchrony), 보편적(universality), 은밀성(stealthiness), 무선 환경 안정성(over-the-air robustness) 등의 특징을 통해 기존의 한계를 극복한다. 특히, 사용자 프롬프트를 완전히 조작할 수 없는 공격자에게도 적용 가능하다는 점에서 기존 공격보다 더 넓은 공격 시나리오를 제공한다. 다양한 LALM에 대한 광범위한 실험을 통해 AudioJailbreak의 높은 효과를 입증하고, LALM의 보안 강화 필요성을 강조한다. 구현 코드와 오디오 샘플은 https://audiojailbreak.github.io/AudioJailbreak 에서 확인 가능하다.
시사점, 한계점
•
시사점:
◦
기존 텍스트 기반 탈옥 공격의 한계를 극복하는 새로운 오디오 기반 탈옥 공격 기법 제시.
◦
비동기, 보편성, 은밀성, 무선 환경 안정성 등 기존 공격보다 향상된 특징을 가짐.
◦
사용자 프롬프트 완전 조작이 불가능한 상황에서도 적용 가능한 넓은 공격 시나리오 제공.
◦
LALM의 보안 취약성을 보여주고, 보안 강화 연구 필요성 제기.
•
한계점:
◦
본 논문에서 제시된 AudioJailbreak 공격의 장기적인 효과 및 적응력에 대한 추가 연구 필요.