Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multilingual and Multi-Accent Jailbreaking of Audio LLMs

Created by
  • Haebom

저자

Jaechul Roh, Virat Shejwalkar, Amir Houmansadr

개요

본 논문은 대규모 오디오 언어 모델(LALMs)의 보안 취약성, 특히 다국어 및 다양한 억양을 활용한 오디오 제어 공격에 대한 심각성을 밝힙니다. 기존 연구는 영어 중심의 공격에 초점을 맞춘 반면, 본 논문에서는 언어 및 음향 변화가 공격 성공률을 크게 증폭시키는 다국어, 다양한 억양의 적대적 오디오 제어 공격이라는 훨씬 심각한 취약성을 제시합니다. 이를 위해 다국어/다양한 억양의 적대적 섭동 오디오 제어 프롬프트로 구성된 새로운 데이터셋과 계층적 평가 파이프라인을 활용한 Multi-AudioJail이라는 체계적인 프레임워크를 제시합니다. 음향적 섭동(예: 반향, 에코, 속삭임 효과)이 교차 언어 음성학과 상호 작용하여 제어 성공률(JSRs)을 최대 +57.25%p까지 증가시키는 것을 보여줍니다(예: MERaLiON에 대한 반향이 포함된 케냐식 억양 공격). 또한, 다중 모달 LLM이 단일 모달 시스템보다 본질적으로 더 취약하다는 것을 밝히고, 공격자는 가장 약한 고리(예: 비영어 오디오 입력)만 이용해 전체 모델을 손상시킬 수 있다는 것을 실험적으로 증명합니다(다국어 오디오 전용 공격은 텍스트 전용 공격보다 3.1배 더 높은 성공률을 달성). 본 논문에서는 교차 모달 방어 연구를 촉진하기 위해 데이터셋을 공개할 예정이며, LALMs의 발전에 따라 확장되는 다중 모달 공격 표면을 해결하기 위한 커뮤니티의 노력을 촉구합니다.

시사점, 한계점

시사점: 다국어 및 다양한 억양을 고려한 오디오 제어 공격의 심각성을 최초로 체계적으로 분석하고, 다중 모달 LLM의 취약성을 실험적으로 증명했습니다. 새로운 데이터셋과 평가 프레임워크를 제공하여 향후 연구를 위한 기반을 마련했습니다. 다중 모달 시스템의 보안 강화에 대한 필요성을 강조했습니다.
한계점: 현재 제시된 Multi-AudioJail 프레임워크의 방어 가능성에 대한 구체적인 논의가 부족합니다. 다양한 종류의 LALMs에 대한 광범위한 실험이 아닌 특정 모델에 대한 결과를 제시하고 있습니다. 제공된 데이터셋의 규모와 다양성에 대한 추가적인 설명이 필요합니다.
👍