본 논문은 대규모 비전-언어 모델(VLMs)의 안전한 배포를 위해, 악의적인 출력을 유도하는 탈옥 공격에 대한 VLM의 강건성을 평가하는 새로운 방법인 IDEATOR를 제안합니다. 기존 연구의 한계인 다양한 다중 모달 데이터 부족을 극복하기 위해, VLM 자체를 활용하여 표적화된 탈옥 텍스트와 최첨단 확산 모델로 생성된 탈옥 이미지를 쌍으로 생성합니다. IDEATOR는 MiniGPT-4에 대해 94%의 공격 성공률(ASR)을 달성하고, LLaVA, InstructBLIP, Chameleon에도 높은 ASR을 보이며 효과와 전이성을 입증합니다. 또한, 3,654개의 다중 모달 탈옥 샘플로 구성된 안전성 벤치마크인 VLJailbreakBench를 소개하며, 11개의 최근 출시된 VLM에 대한 벤치마크 결과를 통해 상당한 안전 정렬의 차이를 보임을 밝힙니다. (예: GPT-4o 46.31%, Claude-3.5-Sonnet 19.65% ASR).