दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

IDEATOR: स्वयं का उपयोग करके बड़े विज़न-लैंग्वेज मॉडलों को जेलब्रेक करना और बेंचमार्क करना

Created by
  • Haebom

लेखक

रुओफ़ान वांग, जुनचेंग ली, यिक्सु वांग, बो वांग, ज़ियाओसेन वांग, यान टेंग, यिंगचुन वांग, ज़िंगजुन मा, यू-गैंग जियांग

रूपरेखा

यह शोधपत्र IDEATOR का प्रस्ताव करता है, जो बड़े पैमाने पर विज़न-लैंग्वेज मॉडल (VLM) के सुरक्षित परिनियोजन के लिए एक नवीन जेलब्रेक आक्रमण विधि है, जो मॉडल की कमज़ोरियों का फायदा उठाकर दुर्भावनापूर्ण आउटपुट उत्पन्न करता है। IDEATOR, लक्षित जेलब्रेक टेक्स्ट उत्पन्न करने के लिए VLM को ही एक शक्तिशाली प्रतिकूल मॉडल के रूप में उपयोग करता है, और उन्हें एक अत्याधुनिक स्प्रेडिंग मॉडल द्वारा उत्पन्न जेलब्रेक छवियों के साथ जोड़ता है। प्रायोगिक परिणाम दर्शाते हैं कि IDEATOR MiniGPT-4 के विरुद्ध 94% आक्रमण सफलता दर (ASR) प्राप्त करता है और LLaVA, InstructBLIP, और Chameleon के विरुद्ध भी उच्च ASR प्रदर्शित करता है। इसके अलावा, हम VLJailbreakBench, एक सुरक्षा बेंचमार्क प्रस्तुत करते हैं जिसमें 3,654 बहु-मोड जेलब्रेक नमूने शामिल हैं, जो IDEATOR की प्रबल स्थानांतरणीयता और स्वचालित प्रसंस्करण का लाभ उठाते हैं। हाल ही में जारी 11 VLM के विरुद्ध बेंचमार्क परिणाम सुरक्षा संरेखण में महत्वपूर्ण अंतर दर्शाते हैं।

Takeaways, Limitations

Takeaways:
IDEATOR एक नया जेलब्रेक आक्रमण तरीका प्रस्तुत करता है जो VLM का ही उपयोग करता है।
IDEATOR की उच्च दक्षता और हस्तांतरणीयता का प्रयोगात्मक प्रदर्शन।
VLJailbreakBench बेंचमार्क विभिन्न VLM में सुरक्षा कमजोरियों का खुलासा करता है
वीएलएम की सुरक्षा में सुधार के लिए अनुसंधान और विकास की आवश्यकता पर बल दिया गया
Limitations:
IDEATOR की प्रभावशीलता प्रयुक्त VLM और प्रसार मॉडल के प्रदर्शन पर निर्भर हो सकती है।
VLJailbreakBench वर्तमान VLM को लक्ष्य करता है, इसलिए भविष्य में VLM के विकास के साथ इसकी वैधता बदल सकती है।
प्रस्तुत मानक विशिष्ट VLMs के विरुद्ध हमले की सफलता दर पर ध्यान केंद्रित करते हैं तथा इनमें विभिन्न प्रकार की दुर्भावनापूर्ण गतिविधियों के व्यापक मूल्यांकन का अभाव हो सकता है।
👍