यह पत्र IDEATOR का प्रस्ताव करता है, जो दुर्भावनापूर्ण आउटपुट उत्पन्न करने वाले जेलब्रेक हमलों के विरुद्ध बड़े पैमाने के विज़न-लैंग्वेज मॉडल (VLM) की मजबूती का मूल्यांकन करने की एक नई विधि है, ताकि VLM का सुरक्षित परिनियोजन किया जा सके। विविध मल्टीमॉडल डेटा की कमी, जो मौजूदा शोध की एक सीमा है, को दूर करने के लिए, हम अत्याधुनिक स्प्रेडिंग मॉडल द्वारा उत्पन्न लक्षित जेलब्रेक टेक्स्ट और जेलब्रेक छवियों के जोड़े बनाने के लिए VLM का ही लाभ उठाते हैं। IDEATOR ने MiniGPT-4 के विरुद्ध 94% की आक्रमण सफलता दर (ASR) और LLaVA, InstructBLIP, और Chameleon के विरुद्ध उच्च ASR प्राप्त की है, जो इसकी प्रभावशीलता और हस्तांतरणीयता को प्रदर्शित करता है। इसके अलावा, हम VLJailbreakBench का परिचय देते हैं, जो 3,654 मल्टीमॉडल जेलब्रेक नमूनों से युक्त एक सुरक्षा बेंचमार्क है।