यह शोधपत्र दुर्भावनापूर्ण रूप से इंजेक्ट की गई या परिवर्तित इनपुट छवियों के प्रति बड़े पैमाने के विज़न लैंग्वेज मॉडल (LVLM) की भेद्यता पर विचार करता है। मौजूदा बचाव विधियाँ छवि संशोधन (आंशिक क्रॉपिंग) के प्रति संवेदनशील दृश्य हमलों का समाधान करती हैं, लेकिन ऐसे संशोधन आंशिक छवियाँ उत्पन्न करते हैं और अर्थविज्ञान को विकृत करते हैं, जिससे मतदान के बाद साफ़ छवियों पर प्रतिक्रियाओं की गुणवत्ता कम हो जाती है। मतदान के लिए आंशिक छवि प्रतिक्रियाओं का सीधे उपयोग करने के बजाय, यह शोधपत्र मूल छवियों पर LVLM प्रतिक्रियाओं की निगरानी करने की एक विधि प्रस्तावित करता है। हम आंशिक-जागरूक पर्यवेक्षण (DPS) नामक एक ब्लैक-बॉक्स, बिना प्रशिक्षण वाली विधि का प्रस्ताव करते हैं, जो एक ऐसे मॉडल द्वारा उत्पन्न प्रतिक्रियाओं का उपयोग करता है जो केवल आंशिक छवियों को पहचानता है और मॉडल को संकेत प्रदान करता है। DPS मॉडल को हमले के दौरान अपनी आंशिक छवि समझ के आधार पर अपनी प्रतिक्रियाओं को समायोजित करने की अनुमति देता है, जबकि साफ़ इनपुट के लिए अपनी मूल प्रतिक्रियाओं को आत्मविश्वास से बनाए रखता है। प्रायोगिक परिणाम दर्शाते हैं कि एक कमज़ोर मॉडल एक मज़बूत मॉडल की निगरानी कर सकता है। हमले के दौरान, मज़बूत मॉडल आत्मविश्वास खो देता है और कमज़ोर मॉडल की आंशिक समझ के आधार पर अपनी प्रतिक्रियाओं को अनुकूलित करता है, जिससे हमलों से प्रभावी रूप से बचाव होता है। तीन लोकप्रिय मॉडलों के छह डेटासेटों में, हमने 76.3% औसत हमले की सफलता दर में कमी प्रदर्शित की है।