[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

जेलडैम: दृष्टि-भाषा मॉडल के लिए अनुकूली मेमोरी के साथ जेलब्रेक डिटेक्शन

Created by
  • Haebom

लेखक

यी निआन, शेन्ज़े झू, यूहान किन, ली ली, ज़ियी वांग, चाओवेई ज़ियाओ, यू झाओ

रूपरेखा

इस पत्र में, हम JAILDAM का प्रस्ताव करते हैं, जो मल्टीमॉडल लार्ज-स्केल लैंग्वेज मॉडल्स (MLLMs) के सुरक्षित परिनियोजन हेतु जेलब्रेक हमले का पता लगाने हेतु एक नवीन ढाँचा है। मौजूदा विधियों की कमियों को दूर करने के लिए, जो (1) केवल व्हाइट-बॉक्स मॉडल्स पर लागू होती हैं, (2) उच्च कम्प्यूटेशनल लागत, और (3) अपर्याप्त लेबल किए गए डेटा, JAILDAM नीति-आधारित असुरक्षित ज्ञान प्रतिनिधित्व के साथ एक स्मृति-आधारित दृष्टिकोण का उपयोग करता है। परीक्षण के समय असुरक्षित ज्ञान को गतिशील रूप से अद्यतन करके, यह दक्षता बनाए रखता है और साथ ही अदृश्य जेलब्रेक रणनीतियों के विरुद्ध भी सामान्यीकरण प्रदर्शन में सुधार करता है। कई VLM जेलब्रेक बेंचमार्क पर प्रायोगिक परिणाम दर्शाते हैं कि JAILDAM सटीकता और गति दोनों में अत्याधुनिक प्रदर्शन प्राप्त करता है।

Takeaways, Limitations

Takeaways:
हम एक नया फ्रेमवर्क, JAILDAM प्रस्तुत करते हैं, जो MLLM के जेलब्रेक हमले का पता लगाने के प्रदर्शन में महत्वपूर्ण सुधार करता है।
हम एक कुशल पहचान विधि का प्रस्ताव करते हैं जो वास्तविक वातावरण पर लागू होती है, न कि केवल व्हाइट बॉक्स मॉडल तक सीमित है।
लेबल किए गए डेटा पर निर्भरता को कम करके डेटा की कमी की समस्याओं को हल करने में मदद करता है।
नई जेलब्रेक रणनीतियों के लिए सामान्यीकरण प्रदर्शन में सुधार करने के लिए परीक्षण के समय ज्ञान को गतिशील रूप से अद्यतन करना।
Limitations:
प्रस्तावित विधि का सामान्यीकरण प्रदर्शन कितना टिकाऊ है, यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न MLLM आर्किटेक्चर और जेलब्रेकिंग रणनीतियों का सुदृढ़ता मूल्यांकन आवश्यक है।
वास्तविक सेवा परिवेश में निष्पादन मूल्यांकन और स्थिरता सत्यापन आवश्यक है।
👍