जेलडैम: दृष्टि-भाषा मॉडल के लिए अनुकूली मेमोरी के साथ जेलब्रेक डिटेक्शन

Created by

Haebom

लेखक

यी निआन, शेन्ज़े झू, यूहान किन, ली ली, ज़ियी वांग, चाओवेई ज़ियाओ, यू झाओ

रूपरेखा

इस पत्र में, हम JAILDAM का प्रस्ताव करते हैं, जो मल्टीमॉडल लार्ज-स्केल लैंग्वेज मॉडल्स (MLLMs) के सुरक्षित परिनियोजन हेतु जेलब्रेक हमले का पता लगाने हेतु एक नवीन ढाँचा है। मौजूदा विधियों की कमियों को दूर करने के लिए, जो (1) केवल व्हाइट-बॉक्स मॉडल्स पर लागू होती हैं, (2) उच्च कम्प्यूटेशनल लागत, और (3) अपर्याप्त लेबल किए गए डेटा, JAILDAM नीति-आधारित असुरक्षित ज्ञान प्रतिनिधित्व के साथ एक स्मृति-आधारित दृष्टिकोण का उपयोग करता है। परीक्षण के समय असुरक्षित ज्ञान को गतिशील रूप से अद्यतन करके, यह दक्षता बनाए रखता है और साथ ही अदृश्य जेलब्रेक रणनीतियों के विरुद्ध भी सामान्यीकरण प्रदर्शन में सुधार करता है। कई VLM जेलब्रेक बेंचमार्क पर प्रायोगिक परिणाम दर्शाते हैं कि JAILDAM सटीकता और गति दोनों में अत्याधुनिक प्रदर्शन प्राप्त करता है।

Takeaways, Limitations

•

Takeaways:

◦

हम एक नया फ्रेमवर्क, JAILDAM प्रस्तुत करते हैं, जो MLLM के जेलब्रेक हमले का पता लगाने के प्रदर्शन में महत्वपूर्ण सुधार करता है।

◦

हम एक कुशल पहचान विधि का प्रस्ताव करते हैं जो वास्तविक वातावरण पर लागू होती है, न कि केवल व्हाइट बॉक्स मॉडल तक सीमित है।

◦

लेबल किए गए डेटा पर निर्भरता को कम करके डेटा की कमी की समस्याओं को हल करने में मदद करता है।

◦

नई जेलब्रेक रणनीतियों के लिए सामान्यीकरण प्रदर्शन में सुधार करने के लिए परीक्षण के समय ज्ञान को गतिशील रूप से अद्यतन करना।

•

Limitations:

◦

प्रस्तावित विधि का सामान्यीकरण प्रदर्शन कितना टिकाऊ है, यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।

◦

विभिन्न MLLM आर्किटेक्चर और जेलब्रेकिंग रणनीतियों का सुदृढ़ता मूल्यांकन आवश्यक है।

◦

वास्तविक सेवा परिवेश में निष्पादन मूल्यांकन और स्थिरता सत्यापन आवश्यक है।

पीडीएफ देखें

Made with Slashpage

दैनिक अर्क्सिव

जेलडैम: दृष्टि-भाषा मॉडल के लिए अनुकूली मेमोरी के साथ जेलब्रेक डिटेक्शन

लेखक

रूपरेखा

Takeaways, Limitations