대규모 언어 모델(LLM)의 음성 및 비음성 오디오 이해 능력 발전으로 복잡한 오디오 입력에 대한 새로운 안전 위험이 발생하고 있습니다. 본 논문은 복잡한 오디오 기반 공격 하에서 LLM의 견고성을 평가하기 위해 SACRED-Bench (Speech-Audio Composition for RED-teaming)를 소개합니다. SACRED-Bench는 잡음 최적화나 화이트박스 접근 방식에 의존하는 기존의 교란 기반 방법과 달리 음성-오디오 구성 메커니즘을 활용합니다. 이 논문은 (a) 유해한 프롬프트를 무해한 음성 아래 또는 옆에 포함하는 음성 중첩 및 다중 화자 대화, (b) 무해한 음성 또는 오디오와 함께 안전하지 않은 의도를 암시하는 음성-오디오 혼합, (c) 텍스트 전용 필터를 우회하는 다양한 음성 명령 형식(개방형 QA, 예/아니오)의 세 가지 메커니즘을 사용합니다. 실험 결과, 최첨단 독점 LLM인 Gemini 2.5 Pro조차도 SACRED-Bench 테스트 세트에서 66%의 공격 성공률을 보이며, 음성-오디오 구성 공격 하에서 취약성을 드러냈습니다. 이러한 격차를 해소하기 위해 음성, 오디오 및 텍스트를 안전 판단을 위해 공동으로 검사하는 안전 장치 LLM인 SALMONN-Guard를 제안하여 공격 성공률을 20%까지 줄였습니다. 이 연구 결과는 멀티모달 LLM의 안전을 위해 오디오 인식 방어가 필요함을 강조합니다.
시사점, 한계점
•
시사점:
◦
SACRED-Bench는 LLM의 음성-오디오 구성 공격에 대한 견고성을 평가하는 새로운 벤치마크를 제공합니다.
◦
음성-오디오 구성 공격은 LLM의 안전 취약점을 드러냅니다.
◦
SALMONN-Guard는 음성, 오디오 및 텍스트를 함께 검사하여 공격 성공률을 줄이는 데 효과적입니다.