본 논문은 대규모 오디오 언어 모델(LALMs)의 보안 취약성, 특히 다국어 및 다양한 억양을 활용한 오디오 제어 공격에 대한 심각성을 밝힙니다. 기존 연구는 영어 중심의 공격에 초점을 맞춘 반면, 본 논문에서는 언어 및 음향 변화가 공격 성공률을 크게 증폭시키는 다국어, 다양한 억양의 적대적 오디오 제어 공격이라는 훨씬 심각한 취약성을 제시합니다. 이를 위해 다국어/다양한 억양의 적대적 섭동 오디오 제어 프롬프트로 구성된 새로운 데이터셋과 계층적 평가 파이프라인을 활용한 Multi-AudioJail이라는 체계적인 프레임워크를 제시합니다. 음향적 섭동(예: 반향, 에코, 속삭임 효과)이 교차 언어 음성학과 상호 작용하여 제어 성공률(JSRs)을 최대 +57.25%p까지 증가시키는 것을 보여줍니다(예: MERaLiON에 대한 반향이 포함된 케냐식 억양 공격). 또한, 다중 모달 LLM이 단일 모달 시스템보다 본질적으로 더 취약하다는 것을 밝히고, 공격자는 가장 약한 고리(예: 비영어 오디오 입력)만 이용해 전체 모델을 손상시킬 수 있다는 것을 실험적으로 증명합니다(다국어 오디오 전용 공격은 텍스트 전용 공격보다 3.1배 더 높은 성공률을 달성). 본 논문에서는 교차 모달 방어 연구를 촉진하기 위해 데이터셋을 공개할 예정이며, LALMs의 발전에 따라 확장되는 다중 모달 공격 표면을 해결하기 위한 커뮤니티의 노력을 촉구합니다.