यह शोधपत्र बड़े पैमाने के भाषा मॉडल (LLM) के सुरक्षा मुद्दे को संबोधित करता है जो कि त्वरित इंजेक्शन हमलों के माध्यम से जेलब्रेकिंग जैसे प्रतिकूल हेरफेर के लिए असुरक्षित हैं। हम LLM की अव्यक्त सक्रियताओं को निकालकर सुरक्षित और जेलब्रेक की गई अवस्थाओं के अव्यक्त उप-स्थानों की जांच करते हैं। तंत्रिका विज्ञान में मानव-आकर्षक नेटवर्क की गतिशीलता से प्रेरित होकर, हम यह परिकल्पना करते हैं कि LLM सक्रियताएँ मेटास्टेबल अवस्थाओं में बस जाती हैं जिन्हें पहचाना जा सकता है और अवस्था संक्रमण को प्रेरित करने के लिए परेशान किया जा सकता है। आयाम घटाने की तकनीकों का उपयोग करते हुए, हम कम-आयामी स्थान में अव्यक्त उप-स्थानों को प्रकट करने के लिए सुरक्षित और जेलब्रेक की गई प्रतिक्रियाओं की सक्रियता को प्रोजेक्ट करते हैं। फिर हम गड़बड़ी वाले वेक्टर प्राप्त करते हैं, जो सुरक्षित अभ्यावेदन पर लागू होने पर मॉडल को जेलब्रेक की गई अवस्थाओं में ले जाते हैं। परिणाम दिखाते हैं कि ये कारणात्मक हस्तक्षेप कुछ संकेतों के लिए सांख्यिकीय रूप से महत्वपूर्ण जेलब्रेक प्रतिक्रियाओं की ओर ले जाते हैं। हम यह भी जांचते हैं कि ये गड़बड़ी मॉडल की परतों के माध्यम से कैसे फैलती है, और क्या प्रेरित अवस्था परिवर्तन स्थानीय रूप से बनाए रखा जाता है या पूरे नेटवर्क में कैस्केड होता है। परिणाम दर्शाते हैं कि लक्षित गड़बड़ी सक्रियण और मॉडल प्रतिक्रियाओं में अलग-अलग परिवर्तन लाती है। यह शोध संभावित सक्रिय बचाव के लिए मार्ग प्रशस्त करता है जो पारंपरिक सुरक्षा-आधारित तरीकों से आगे बढ़कर पूर्व-प्रतिरोधक और मॉडल-स्वतंत्र तकनीकों की ओर बढ़ता है जो प्रतिनिधित्वात्मक स्तर पर प्रतिकूल स्थितियों को बेअसर करता है।