본 논문은 대규모 언어 모델(LLM)과의 오디오 기반 상호작용이 증가함에 따라 발생하는 새로운 보안 취약성을 다룹니다. WhisperInject라는 새로운 적대적 오디오 공격 프레임워크를 제시하는데, 이는 인간이 인지하지 못하는 미세한 오디오 변화를 이용하여 최첨단 오디오 LLM을 조작하여 유해한 콘텐츠를 생성하도록 만듭니다. 두 단계로 구성된 이 프레임워크는 첫 번째 단계에서 강화학습 기반 최적화 기법(RL-PGD)을 사용하여 모델의 안전 프로토콜을 우회하고 유해한 응답을 생성하도록 유도하며, 두 번째 단계에서는 투영된 기울기 강하법(PGD)을 사용하여 무해한 오디오(예: 날씨 질의, 인사말)에 미세한 변화를 삽입하여 유해한 응답을 생성하도록 합니다. Qwen2.5-Omni-3B, Qwen2.5-Omni-7B, Phi-4-Multimodal 모델을 대상으로 StrongREJECT, LlamaGuard 및 인간 평가를 포함한 엄격한 안전 평가 프레임워크 하에서 검증한 결과, 86% 이상의 성공률을 달성했습니다. 이 연구는 이론적 공격을 넘어 실제적이고 은밀한 AI 조작 방법을 제시합니다.