DMN: A Compositional Framework for Jailbreaking Multimodal LLMs with Multi-Image Inputs

작성자

Haebom

카테고리

Empty

저자

Wenzhuo Xu, Zhipeng Wei, Zonghao Ying, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang, Quanchen Zou

💡 개요

본 논문은 다중 이미지 입력을 지원하는 멀티모달 대규모 언어 모델(MLLM)의 취약점을 파고드는 새로운 탈옥(jailbreaking) 방법론인 DMN을 제안합니다. DMN은 분산된 지시, 멀티모달 증거, 그리고 숫자 연계 과제를 활용하여 MLLM의 안전 메커니즘을 우회합니다. 실험 결과, GPT-4o, Gemini-2.5-pro, Claude Sonnet 4와 같은 최신 MLLM에 대해 90% 이상의 높은 공격 성공률을 달성하며 기존 방법론을 크게 능가하는 성능을 보였습니다.

🔑 시사점 및 한계

•

다중 이미지 입력 기능을 가진 MLLM이 단일 이미지 기반 공격에 비해 더 심각한 보안 취약점을 가질 수 있음을 보여줍니다.

•

DMN은 여러 이미지를 통해 유해한 요청을 분산시키고, 풍부한 정보를 제공하며, 추가적인 시각 추론 과제를 이용하여 MLLM을 효과적으로 속일 수 있음을 입증했습니다.

•

제안된 DMN 프레임워크의 성공은 MLLM의 안전 정렬이 다중 이미지 시나리오에서 아직 충분히 이루어지지 않았음을 시사하며, 향후 MLLM 보안 연구의 방향성을 제시합니다.

•

본 연구의 한계점은 특정 MLLM 모델에 대한 실험 결과이며, 다양한 아키텍처 및 학습 데이터셋을 가진 MLLM에 대한 일반화 가능성은 추가적인 검증이 필요합니다.

PDF 보기

Made with Slashpage