दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

आंशिक-धारणा पर्यवेक्षण के माध्यम से दृष्टि हमलों के विरुद्ध LVLMs की रक्षा करना

Created by
  • Haebom

लेखक

क्यूई झोउ, तियानलिन ली, किंग गुओ, डोंगक्सिया वांग, युन लिन, यांग लियू, जिन सोंग डोंग

रूपरेखा

यह शोधपत्र दुर्भावनापूर्ण रूप से इंजेक्ट की गई या परिवर्तित इनपुट छवियों के प्रति बड़े पैमाने के विज़न लैंग्वेज मॉडल (LVLM) की भेद्यता पर विचार करता है। मौजूदा बचाव विधियाँ छवि संशोधन (आंशिक क्रॉपिंग) के प्रति संवेदनशील दृश्य हमलों का समाधान करती हैं, लेकिन ऐसे संशोधन आंशिक छवियाँ उत्पन्न करते हैं और अर्थविज्ञान को विकृत करते हैं, जिससे मतदान के बाद साफ़ छवियों पर प्रतिक्रियाओं की गुणवत्ता कम हो जाती है। मतदान के लिए आंशिक छवि प्रतिक्रियाओं का सीधे उपयोग करने के बजाय, यह शोधपत्र मूल छवियों पर LVLM प्रतिक्रियाओं की निगरानी करने की एक विधि प्रस्तावित करता है। हम आंशिक-जागरूक पर्यवेक्षण (DPS) नामक एक ब्लैक-बॉक्स, बिना प्रशिक्षण वाली विधि का प्रस्ताव करते हैं, जो एक ऐसे मॉडल द्वारा उत्पन्न प्रतिक्रियाओं का उपयोग करता है जो केवल आंशिक छवियों को पहचानता है और मॉडल को संकेत प्रदान करता है। DPS मॉडल को हमले के दौरान अपनी आंशिक छवि समझ के आधार पर अपनी प्रतिक्रियाओं को समायोजित करने की अनुमति देता है, जबकि साफ़ इनपुट के लिए अपनी मूल प्रतिक्रियाओं को आत्मविश्वास से बनाए रखता है। प्रायोगिक परिणाम दर्शाते हैं कि एक कमज़ोर मॉडल एक मज़बूत मॉडल की निगरानी कर सकता है। हमले के दौरान, मज़बूत मॉडल आत्मविश्वास खो देता है और कमज़ोर मॉडल की आंशिक समझ के आधार पर अपनी प्रतिक्रियाओं को अनुकूलित करता है, जिससे हमलों से प्रभावी रूप से बचाव होता है। तीन लोकप्रिय मॉडलों के छह डेटासेटों में, हमने 76.3% औसत हमले की सफलता दर में कमी प्रदर्शित की है।

Takeaways, Limitations

Takeaways:
हम आंशिक छवि जानकारी का लाभ उठाकर बड़े पैमाने पर दृष्टि भाषा मॉडल पर प्रतिकूल हमलों के खिलाफ एक नई रक्षा तकनीक प्रस्तुत करते हैं।
हम मौजूदा मतदान-आधारित रक्षा विधियों की सीमाओं पर काबू पा लेते हैं और स्वच्छ छवियों की प्रतिक्रिया गुणवत्ता को कम किए बिना हमलों से बचाव के लिए एक प्रभावी तरीका प्रस्तुत करते हैं।
हम एक कमजोर मॉडल का लाभ उठाकर एक मजबूत मॉडल की निगरानी करने के लिए एक मूल दृष्टिकोण प्रस्तुत करते हैं।
यह विभिन्न डेटा सेटों और मॉडलों में उच्च रक्षा प्रदर्शन को प्रदर्शित करता है।
Limitations:
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि प्रस्तावित डीपीएस विधि सभी प्रकार के दृश्य हमलों के विरुद्ध प्रभावी है या नहीं।
कुछ प्रकार की आंशिक छवियों या कुछ आक्रमण वेक्टरों के विरुद्ध रक्षा प्रदर्शन में गिरावट आ सकती है।
चूंकि यह एक ब्लैक बॉक्स दृष्टिकोण है, इसलिए मॉडल की आंतरिक कार्यप्रणाली की समझ में कमी हो सकती है।
वास्तविक दुनिया के वातावरण में प्रयोज्यता का और अधिक सत्यापन आवश्यक है।
👍