यह शोधपत्र जेलब्रेक हमलों पर एक अध्ययन प्रस्तुत करता है जो बड़े पैमाने के भाषा मॉडल (LLM) की कमज़ोरियों का फ़ायदा उठाकर दुर्भावनापूर्ण सामग्री उत्पन्न करते हैं। विशेष रूप से, हम एक सामान्य आक्रमण विधि पर ध्यान केंद्रित करते हैं जो अस्पष्ट संकेतों का उपयोग करके LLM को भ्रमित करती है, और LLM के इनपुट संकेतों और आउटपुट के बीच आंतरिक संबंध को उजागर करने के लिए ध्यान भार वितरण का विश्लेषण करते हैं। सांख्यिकीय विश्लेषण विधियों का उपयोग करते हुए, हम ध्यान शक्ति (Attn_SensWords), संदर्भ-निर्भर स्कोर (Attn_DepScore), और ध्यान वितरण एन्ट्रॉपी (Attn_Entropy) जैसे नए मापदंड परिभाषित करते हैं, और उनका उपयोग "धोखेबाज़ हमले" रणनीति से प्रेरित एक ध्यान-आधारित हमले (ABA) रणनीति का प्रस्ताव करने के लिए करते हैं। ABA, अतिव्यापी संकेतों का उपयोग करके LLM के ध्यान वितरण को बदलकर सौम्य भागों पर ध्यान केंद्रित करता है। इसके अतिरिक्त, हम ध्यान वितरण को समायोजित करके LLM की मज़बूती में सुधार करने के लिए ABA पर आधारित एक ध्यान-आधारित रक्षा (ABD) रणनीति प्रस्तुत करते हैं। प्रायोगिक परिणामों के माध्यम से, हम ए.बी.ए. और ए.बी.डी. की प्रभावशीलता को सत्यापित करते हैं, और दिखाते हैं कि ध्यान भार वितरण का एल.एल.एम. के आउटपुट पर महत्वपूर्ण प्रभाव पड़ता है।