यह शोधपत्र IDEATOR का प्रस्ताव करता है, जो बड़े पैमाने पर विज़न-लैंग्वेज मॉडल (VLM) के सुरक्षित परिनियोजन के लिए एक नवीन जेलब्रेक आक्रमण विधि है, जो मॉडल की कमज़ोरियों का फायदा उठाकर दुर्भावनापूर्ण आउटपुट उत्पन्न करता है। IDEATOR, लक्षित जेलब्रेक टेक्स्ट उत्पन्न करने के लिए VLM को ही एक शक्तिशाली प्रतिकूल मॉडल के रूप में उपयोग करता है, और उन्हें एक अत्याधुनिक स्प्रेडिंग मॉडल द्वारा उत्पन्न जेलब्रेक छवियों के साथ जोड़ता है। प्रायोगिक परिणाम दर्शाते हैं कि IDEATOR MiniGPT-4 के विरुद्ध 94% आक्रमण सफलता दर (ASR) प्राप्त करता है और LLaVA, InstructBLIP, और Chameleon के विरुद्ध भी उच्च ASR प्रदर्शित करता है। इसके अलावा, हम VLJailbreakBench, एक सुरक्षा बेंचमार्क प्रस्तुत करते हैं जिसमें 3,654 बहु-मोड जेलब्रेक नमूने शामिल हैं, जो IDEATOR की प्रबल स्थानांतरणीयता और स्वचालित प्रसंस्करण का लाभ उठाते हैं। हाल ही में जारी 11 VLM के विरुद्ध बेंचमार्क परिणाम सुरक्षा संरेखण में महत्वपूर्ण अंतर दर्शाते हैं।