본 논문은 대규모 오디오-언어 모델(LALMs)에 대한 탈옥 공격(Jailbreak attacks)의 효과, 적용 가능성 및 실용성을 향상시키는 새로운 오디오 기반 탈옥 공격 기법인 AudioJailbreak을 제안한다. 기존의 텍스트 기반 탈옥 공격이 TTS 기술을 통해 LALMs에 쉽게 적용되지 않는다는 점을 실험적으로 보여주고, AudioJailbreak은 비동기성(suffixal jailbreak audios), 보편성(multiple prompts), 은밀성(intent concealment strategies), 그리고 무선 환경에서의 강건성(reverberation distortion effect)을 특징으로 한다. 기존의 오디오 탈옥 공격과 달리, AudioJailbreak은 사용자가 프롬프트를 완전히 조작할 수 없는 상황에서도 적용 가능하며, 다양한 LALMs에 대한 실험을 통해 높은 효과를 보였다. 본 연구는 LALMs의 보안 취약성을 강조하고, 보안 강화를 위한 발전을 촉진하는 것을 목표로 한다.