Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

Created by
  • Haebom

저자

Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, DongGeon Lee, Haon Park, JaeHoon Lee, Jongho Shin

개요

본 논문은 대규모 언어 모델(LLM)과의 오디오 기반 상호작용이 증가함에 따라 발생하는 새로운 보안 취약성을 다룹니다. WhisperInject라는 새로운 적대적 오디오 공격 프레임워크를 제시하는데, 이는 인간이 인지하지 못하는 미세한 오디오 변화를 이용하여 최첨단 오디오 LLM을 조작하여 유해한 콘텐츠를 생성하도록 만듭니다. 두 단계로 구성된 이 프레임워크는 첫 번째 단계에서 강화학습 기반 최적화 기법(RL-PGD)을 사용하여 모델의 안전 프로토콜을 우회하고 유해한 응답을 생성하도록 유도하며, 두 번째 단계에서는 투영된 기울기 강하법(PGD)을 사용하여 무해한 오디오(예: 날씨 질의, 인사말)에 미세한 변화를 삽입하여 유해한 응답을 생성하도록 합니다. Qwen2.5-Omni-3B, Qwen2.5-Omni-7B, Phi-4-Multimodal 모델을 대상으로 StrongREJECT, LlamaGuard 및 인간 평가를 포함한 엄격한 안전 평가 프레임워크 하에서 검증한 결과, 86% 이상의 성공률을 달성했습니다. 이 연구는 이론적 공격을 넘어 실제적이고 은밀한 AI 조작 방법을 제시합니다.

시사점, 한계점

시사점:
오디오 기반 LLM 상호작용의 보안 취약성을 실증적으로 보여줌.
인지할 수 없는 미세한 오디오 변화를 이용한 새로운 유형의 적대적 공격 기법 제시.
기존 안전 프로토콜 우회 가능성을 보여줌으로써 LLM 보안 강화의 필요성을 강조.
실제적인 공격 가능성을 보여주는 실험 결과 제시.
한계점:
특정 LLM 모델에 대한 공격 성공률 제시에 그치며, 다른 모델에 대한 일반화 가능성은 추가 연구 필요.
공격의 실제 세계 적용 가능성 및 효과에 대한 추가적인 연구가 필요.
WhisperInject의 방어 기법에 대한 연구가 필요.
다양한 오디오 환경 및 잡음에 대한 공격의 견고성에 대한 추가적인 분석이 필요.
👍