दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एआई सुरक्षा के लिए एलएलएम में अव्यक्त उपस्थानों की जांच: प्रतिकूल स्थितियों की पहचान करना और उनमें हेरफेर करना

Created by
  • Haebom

लेखक

शिन वेई चिया, स्वी लियांग वोंग, जोनाथन पैन

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडल (LLM) के सुरक्षा मुद्दे को संबोधित करता है जो कि त्वरित इंजेक्शन हमलों के माध्यम से जेलब्रेकिंग जैसे प्रतिकूल हेरफेर के लिए असुरक्षित हैं। हम LLM की अव्यक्त सक्रियताओं को निकालकर सुरक्षित और जेलब्रेक की गई अवस्थाओं के अव्यक्त उप-स्थानों की जांच करते हैं। तंत्रिका विज्ञान में मानव-आकर्षक नेटवर्क की गतिशीलता से प्रेरित होकर, हम यह परिकल्पना करते हैं कि LLM सक्रियताएँ मेटास्टेबल अवस्थाओं में बस जाती हैं जिन्हें पहचाना जा सकता है और अवस्था संक्रमण को प्रेरित करने के लिए परेशान किया जा सकता है। आयाम घटाने की तकनीकों का उपयोग करते हुए, हम कम-आयामी स्थान में अव्यक्त उप-स्थानों को प्रकट करने के लिए सुरक्षित और जेलब्रेक की गई प्रतिक्रियाओं की सक्रियता को प्रोजेक्ट करते हैं। फिर हम गड़बड़ी वाले वेक्टर प्राप्त करते हैं, जो सुरक्षित अभ्यावेदन पर लागू होने पर मॉडल को जेलब्रेक की गई अवस्थाओं में ले जाते हैं। परिणाम दिखाते हैं कि ये कारणात्मक हस्तक्षेप कुछ संकेतों के लिए सांख्यिकीय रूप से महत्वपूर्ण जेलब्रेक प्रतिक्रियाओं की ओर ले जाते हैं। हम यह भी जांचते हैं कि ये गड़बड़ी मॉडल की परतों के माध्यम से कैसे फैलती है, और क्या प्रेरित अवस्था परिवर्तन स्थानीय रूप से बनाए रखा जाता है या पूरे नेटवर्क में कैस्केड होता है। परिणाम दर्शाते हैं कि लक्षित गड़बड़ी सक्रियण और मॉडल प्रतिक्रियाओं में अलग-अलग परिवर्तन लाती है। यह शोध संभावित सक्रिय बचाव के लिए मार्ग प्रशस्त करता है जो पारंपरिक सुरक्षा-आधारित तरीकों से आगे बढ़कर पूर्व-प्रतिरोधक और मॉडल-स्वतंत्र तकनीकों की ओर बढ़ता है जो प्रतिनिधित्वात्मक स्तर पर प्रतिकूल स्थितियों को बेअसर करता है।

Takeaways, Limitations

Takeaways:
एलएलएम के जेलब्रेक कारनामों के बारे में नई जानकारी प्रदान करता है।
हम अव्यक्त उप-स्थान विश्लेषण के माध्यम से मॉडल कमजोरियों का पता लगाने और उनसे बचाव की संभावना प्रस्तुत करते हैं।
यह नई रक्षा रणनीतियों की क्षमता को प्रदर्शित करता है जो पारंपरिक सुरक्षा-आधारित रक्षा विधियों से आगे जाती हैं।
हम मॉडल के आंतरिक प्रतिनिधित्व में हेरफेर के माध्यम से प्रतिकूल हमले से बचाव के लिए एक नया प्रतिमान प्रस्तुत करते हैं।
Limitations:
यह निर्धारित करने के लिए कि क्या प्रस्तावित विधि सभी प्रकार के त्वरित इंजेक्शन हमलों के विरुद्ध प्रभावी है, आगे और अध्ययन की आवश्यकता है।
विशिष्ट एलएलएम और प्रॉम्प्ट्स के लिए परिणामों की सामान्यता का सत्यापन आवश्यक है।
बड़े पैमाने के एलएलएम में इसकी प्रयोज्यता और मापनीयता पर शोध की आवश्यकता है।
विकसित गड़बड़ी वैक्टर की व्याख्या और सामान्यीकरण प्रदर्शन में सुधार की आवश्यकता है।
👍