[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सुरक्षित मल्टीमॉडल बड़े भाषा मॉडल के लिए स्टीयरिंग को स्वचालित करना

Created by
  • Haebom

लेखक

ल्युचेंग वू, मेंगरू वांग, ज़िवेन जू, ट्राई काओ, ने ऊ, ब्रायन हूई, शूमिन डेंग

रूपरेखा

इस पत्र में, हम ऑटोस्टीयर का प्रस्ताव करते हैं, जो मल्टीमॉडल लार्ज-स्केल लैंग्वेज मॉडल्स (एमएलएलएम) की सुरक्षा में सुधार के लिए एक अनुमान-समय मध्यस्थता तकनीक है। ऑटोस्टीयर में तीन मुख्य घटक होते हैं: सुरक्षा जागरूकता स्कोर (एसएएस), अनुकूली सुरक्षा प्रोब और हल्के रिजेक्ट हेड, अंतर्निहित मॉडलों में किसी भी प्रकार का सुधार किए बिना। एसएएस स्वचालित रूप से एक मॉडल के भीतर परतों के बीच सुरक्षा-संबंधित अंतरों की पहचान करता है, अनुकूली सुरक्षा प्रोब मध्यवर्ती अभ्यावेदन से हानिकारक आउटपुट की संभावना का अनुमान लगाते हैं, और रिजेक्ट हेड सुरक्षा खतरों का पता चलने पर चुनिंदा रूप से उत्पादन को समायोजित करते हैं। एलएलएवीए-ओवी और गिरगिट का उपयोग करके किए गए प्रायोगिक परिणाम दर्शाते हैं कि ऑटोस्टीयर सामान्य कार्यक्षमता को बनाए रखते हुए पाठ्य, दृश्य और मल्टीमॉडल खतरों के विरुद्ध हमले की सफलता दर (एएसआर) को उल्लेखनीय रूप से कम करता है।

Takeaways, Limitations

Takeaways:
हम एमएलएलएम के अनुमान चरण में सुरक्षा में सुधार के लिए एक प्रभावी और व्याख्या योग्य ढांचा प्रदान करते हैं।
बेस मॉडल में सुधार किए बिना भी सुरक्षा को बढ़ाया जा सकता है।
विभिन्न प्रकार के बहु-मोड खतरों के विरुद्ध सुरक्षा को प्रभावी ढंग से बढ़ाता है।
हम वास्तविक दुनिया के मल्टी-मॉडल एआई सिस्टम की सुरक्षित तैनाती के लिए एक व्यावहारिक दृष्टिकोण प्रस्तुत करते हैं।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन की जाँच के लिए और अधिक शोध की आवश्यकता है। विभिन्न MLLM और सुरक्षा खतरों पर व्यापक प्रयोग आवश्यक हो सकते हैं।
एसएएस, अनुकूली सुरक्षा जांच और अस्वीकार शीर्षों के लिए इष्टतम पैरामीटर सेटिंग्स निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता हो सकती है।
नए प्रकार के सुरक्षा खतरों के प्रति ऑटोस्टीयर की मजबूती का मूल्यांकन किया जाना आवश्यक है।
👍