दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

IDEATOR: स्वयं का उपयोग करके बड़े विज़न-लैंग्वेज मॉडलों को जेलब्रेक करना और बेंचमार्क करना

Created by
  • Haebom

लेखक

रुओफ़ान वांग, जुनचेंग ली, यिक्सु वांग, बो वांग, ज़ियाओसेन वांग, यान टेंग, यिंगचुन वांग, ज़िंगजुन मा, यू-गैंग जियांग

रूपरेखा

यह पत्र IDEATOR का प्रस्ताव करता है, जो दुर्भावनापूर्ण आउटपुट उत्पन्न करने वाले जेलब्रेक हमलों के विरुद्ध बड़े पैमाने के विज़न-लैंग्वेज मॉडल (VLM) की मजबूती का मूल्यांकन करने की एक नई विधि है, ताकि VLM का सुरक्षित परिनियोजन किया जा सके। विविध मल्टीमॉडल डेटा की कमी, जो मौजूदा शोध की एक सीमा है, को दूर करने के लिए, हम अत्याधुनिक स्प्रेडिंग मॉडल द्वारा उत्पन्न लक्षित जेलब्रेक टेक्स्ट और जेलब्रेक छवियों के जोड़े बनाने के लिए VLM का ही लाभ उठाते हैं। IDEATOR ने MiniGPT-4 के विरुद्ध 94% की आक्रमण सफलता दर (ASR) और LLaVA, InstructBLIP, और Chameleon के विरुद्ध उच्च ASR प्राप्त की है, जो इसकी प्रभावशीलता और हस्तांतरणीयता को प्रदर्शित करता है। इसके अलावा, हम VLJailbreakBench का परिचय देते हैं, जो 3,654 मल्टीमॉडल जेलब्रेक नमूनों से युक्त एक सुरक्षा बेंचमार्क है।

Takeaways, Limitations

Takeaways:
आईडीएटर, जो कि वीएलएम का ही उपयोग करते हुए एक नई जेलब्रेक आक्रमण विधि है, प्रस्तुत की गई है तथा इसकी उच्च प्रभावशीलता और हस्तांतरणीयता का प्रदर्शन किया गया है।
विभिन्न वीएलएम के लिए सुरक्षा बेंचमार्क, वीएलजेलब्रेकबेंच जारी किया गया है।
यह वर्तमान वीएलएम सुरक्षा में गंभीर कमजोरियों को उजागर करता है तथा मजबूत सुरक्षा की आवश्यकता पर प्रकाश डालता है।
Limitations:
IDEATOR का प्रदर्शन प्रयुक्त प्रसार मॉडल और VLM के प्रदर्शन पर निर्भर हो सकता है।
वीएलजेलब्रेकबेंच का दायरा सीमित हो सकता है और इसके लिए अधिक विविध और व्यापक डेटासेट की आवश्यकता हो सकती है।
IDEATOR सभी VLMs (विशिष्ट मॉडलों के लिए रक्षा तंत्र विकसित करने की संभावना) के लिए समान प्रभावशीलता की गारंटी नहीं दे सकता है।
👍