Jailbreak-AudioBench: In-Depth Evaluation and Analysis of Jailbreak Threats for Large Audio Language Models
Created by
Haebom
저자
Hao Cheng, Erjia Xiao, Jing Shao, Yichi Wang, Le Yang, Chao Sheng, Philip Torr, Jindong Gu, Renjing Xu
개요
본 논문은 대규모 오디오-언어 모델(LALM)의 보안 취약성, 특히 오디오 기반의 탈옥 공격(jailbreak attack)에 대한 연구를 다룹니다. 기존 연구들이 텍스트나 이미지 기반의 탈옥 공격에 집중한 것과 달리, 본 논문은 오디오 입력을 이용한 탈옥 공격에 초점을 맞춰 Jailbreak-AudioBench라는 벤치마크를 제시합니다. Jailbreak-AudioBench는 텍스트-오디오 변환 도구, 다양한 오디오 편집 기법을 포함하는 툴박스와 명시적/암시적 탈옥 오디오 예시를 포함하는 데이터셋, 그리고 여러 최첨단 LALM을 평가한 벤치마크 결과로 구성됩니다. 이를 통해 LALM의 안전성 향상을 위한 연구 기반을 마련하고, 향상된 탈옥 공격(예: 질의 기반 오디오 편집)을 탐색하고 방어 메커니즘 개발을 촉진합니다.
시사점, 한계점
•
시사점:
◦
LALM의 오디오 기반 탈옥 공격에 대한 최초의 종합적인 벤치마크를 제공합니다.
◦
다양한 오디오 편집 기법을 활용한 탈옥 공격의 위험성을 보여줍니다.
◦
LALM의 안전성 향상을 위한 연구 방향을 제시합니다.
◦
질의 기반 오디오 편집과 같은 새로운 유형의 탈옥 공격에 대한 연구를 촉진합니다.
•
한계점:
◦
현재 벤치마크에 포함된 LALM의 종류가 제한적일 수 있습니다.
◦
새로운 탈옥 기법이 지속적으로 개발될 가능성이 있으며, Jailbreak-AudioBench가 모든 유형의 탈옥 공격을 포괄하지 못할 수 있습니다.