대규모 언어 모델(LLM)의 음성 및 비음성 오디오 이해 능력 발전으로 복잡한 오디오 기반 공격에 대한 안전성 위험이 대두됨. SACRED-Bench를 도입하여 복잡한 오디오 기반 공격에 대한 LLM의 견고성을 평가. SACRED-Bench는 음성-오디오 구성 메커니즘을 활용하여 유해한 프롬프트를 숨기거나, 비음성 오디오와 함께 안전하지 않은 의도를 암시하며, 다양한 음성 지침 형식을 사용. 실험 결과, 최첨단 LLM인 Gemini 2.5 Pro도 SACRED-Bench 테스트 세트에서 66%의 공격 성공률을 보임. 이러한 취약점을 해결하기 위해 음성, 오디오 및 텍스트를 함께 검사하는 안전 장치 LLM인 SALMONN-Guard를 제안하여 공격 성공률을 20%까지 감소시킴.