Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models

Created by
  • Haebom

저자

Youze Wang, Wenbo Hu, Yinpeng Dong, Jing Liu, Hanwang Zhang, Richang Hong

개요

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 취약성을 다룬다. 텍스트 기반의 제어 회피 공격(jailbreak attack)이 기존 안전 프로토콜에 심각한 위협이 되는 가운데, 이미지와 텍스트의 상호작용을 이용한 통합된 멀티모달 유니버설 제어 회피 공격 프레임워크를 제안한다. 이 프레임워크는 반복적인 이미지-텍스트 상호작용과 전이 기반 전략을 활용하여 유니버설 적대적 접미사와 이미지를 생성한다. LLaVA, Yi-VL, MiniGPT4, MiniGPT-v2, InstructBLIP 등 다양한 MLLM에 대한 평가를 통해, 멀티모달 안전 정렬 문제와 기존 안전 메커니즘의 부적절성을 보여주며, 강력한 멀티모달 안전 조치의 필요성을 강조한다.

시사점, 한계점

시사점:
이미지와 텍스트의 상호작용이 MLLM의 심각한 취약성으로 활용될 수 있음을 보여줌.
멀티모달 유니버설 제어 회피 공격이 다양한 MLLM에서 고품질의 바람직하지 않은 결과 생성을 가능하게 함을 증명.
기존 안전 메커니즘의 부족과 강화된 안전 조치의 시급성을 강조.
MLLM의 멀티모달 안전 정렬 문제를 밝힘.
한계점:
제안된 프레임워크의 일반화 가능성에 대한 추가 연구 필요.
다양한 유형의 멀티모달 데이터에 대한 공격의 효과성 평가 필요.
제안된 방어 메커니즘에 대한 구체적인 제안 부재.
👍