इस पत्र में, हम JAILDAM का प्रस्ताव करते हैं, जो मल्टीमॉडल लार्ज-स्केल लैंग्वेज मॉडल्स (MLLMs) के सुरक्षित परिनियोजन हेतु जेलब्रेक हमले का पता लगाने हेतु एक नवीन ढाँचा है। मौजूदा विधियों की कमियों को दूर करने के लिए, जो (1) केवल व्हाइट-बॉक्स मॉडल्स पर लागू होती हैं, (2) उच्च कम्प्यूटेशनल लागत, और (3) अपर्याप्त लेबल किए गए डेटा, JAILDAM नीति-आधारित असुरक्षित ज्ञान प्रतिनिधित्व के साथ एक स्मृति-आधारित दृष्टिकोण का उपयोग करता है। परीक्षण के समय असुरक्षित ज्ञान को गतिशील रूप से अद्यतन करके, यह दक्षता बनाए रखता है और साथ ही अदृश्य जेलब्रेक रणनीतियों के विरुद्ध भी सामान्यीकरण प्रदर्शन में सुधार करता है। कई VLM जेलब्रेक बेंचमार्क पर प्रायोगिक परिणाम दर्शाते हैं कि JAILDAM सटीकता और गति दोनों में अत्याधुनिक प्रदर्शन प्राप्त करता है।