दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

क्या एलएलएम अपने इनपुट की सुरक्षा को समझते हैं? लेटेंट प्रोटोटाइप के माध्यम से प्रशिक्षण-मुक्त मॉडरेशन

Created by
  • Haebom

लेखक

मैसीज क्रैब\K{a}szcz, फ़िलिप सज़ाटकोव्स्की, बार्टोज़ डब्ल्यू ओजिक, जान डुबी एनस्की, टोमाज़ ट्रज़सी एनस्की, सेबेस्टियन साइगर्ट

रूपरेखा

इस पत्र में, हम एक प्रशिक्षण-मुक्त सुरक्षा मूल्यांकन विधि का प्रस्ताव करते हैं जो बड़े पैमाने के भाषा मॉडल (LLM) की सुरक्षा और संरेखण समस्याओं को हल करने के लिए पारंपरिक महंगे गार्ड मॉडल के बजाय पूर्व-प्रशिक्षित LLM की आंतरिक जानकारी का उपयोग करता है। हम दिखाते हैं कि LLM सरल संकेत के माध्यम से हानिकारक इनपुट को पहचान सकता है और मॉडल के अव्यक्त स्थान में सुरक्षित और हानिकारक संकेतों को अलग कर सकता है। इसके आधार पर, हम लेटेंट प्रोटोटाइप मॉडरेटर (LPM) का प्रस्ताव करते हैं, जो एक हल्का, कस्टम-निर्मित ऐड-ऑन है जो इनपुट की सुरक्षा का आकलन करने के लिए लेटेंट स्पेस में महालनोबिस दूरी का उपयोग करता है। LPM विभिन्न मॉडल परिवारों और आकारों के लिए सामान्यीकृत होता है, और कई सुरक्षा बेंचमार्क पर अत्याधुनिक गार्ड मॉडल के बराबर या उससे बेहतर प्रदर्शन करता है।

Takeaways, Limitations

Takeaways:
हम पारंपरिक उच्च लागत वाले गार्ड मॉडल के लिए प्रशिक्षण-मुक्त विकल्प प्रदान करके एलएलएम मॉडरेशन की दक्षता बढ़ाते हैं।
एलपीएम एक सामान्यीकृत, लचीला और स्केलेबल समाधान प्रदान करता है जो मॉडल श्रृंखला और आकार से स्वतंत्र है।
हम प्रदर्शित करते हैं कि सरल संकेत और गुप्त स्थान विश्लेषण का उपयोग एलएलएम की सुरक्षा का आकलन करने के लिए किया जा सकता है।
अनेक सुरक्षा मानदंडों पर अत्याधुनिक प्रदर्शन हासिल किया।
Limitations:
प्रस्तावित विधि का प्रदर्शन प्रयुक्त एलएलएम और त्वरित इंजीनियरिंग पर निर्भर हो सकता है।
नए प्रकार के हानिकारक इनपुटों के प्रति अनुकूलनशीलता पर अतिरिक्त शोध की आवश्यकता हो सकती है।
गुप्त स्थान विश्लेषण की व्याख्यात्मकता का पता लगाने के लिए आगे अनुसंधान की आवश्यकता हो सकती है।
👍