दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

छल और हमला: जेलब्रेकिंग और एलएलएम की सुरक्षा के लिए ध्यान-आधारित रणनीतियाँ

Created by
  • Haebom

लेखक

रुई पु, चाओझुओ ली, रुई हा, ज़ेजियन चेन, लिटियन झांग, झेंग लियू, लिरोंग किउ, ज़ैशेंग ये

रूपरेखा

यह शोधपत्र जेलब्रेक हमलों पर एक अध्ययन प्रस्तुत करता है जो बड़े पैमाने के भाषा मॉडल (LLM) की कमज़ोरियों का फ़ायदा उठाकर दुर्भावनापूर्ण सामग्री उत्पन्न करते हैं। विशेष रूप से, हम एक सामान्य आक्रमण विधि पर ध्यान केंद्रित करते हैं जो अस्पष्ट संकेतों का उपयोग करके LLM को भ्रमित करती है, और LLM के इनपुट संकेतों और आउटपुट के बीच आंतरिक संबंध को उजागर करने के लिए ध्यान भार वितरण का विश्लेषण करते हैं। सांख्यिकीय विश्लेषण विधियों का उपयोग करते हुए, हम ध्यान शक्ति (Attn_SensWords), संदर्भ-निर्भर स्कोर (Attn_DepScore), और ध्यान वितरण एन्ट्रॉपी (Attn_Entropy) जैसे नए मापदंड परिभाषित करते हैं, और उनका उपयोग "धोखेबाज़ हमले" रणनीति से प्रेरित एक ध्यान-आधारित हमले (ABA) रणनीति का प्रस्ताव करने के लिए करते हैं। ABA, अतिव्यापी संकेतों का उपयोग करके LLM के ध्यान वितरण को बदलकर सौम्य भागों पर ध्यान केंद्रित करता है। इसके अतिरिक्त, हम ध्यान वितरण को समायोजित करके LLM की मज़बूती में सुधार करने के लिए ABA पर आधारित एक ध्यान-आधारित रक्षा (ABD) रणनीति प्रस्तुत करते हैं। प्रायोगिक परिणामों के माध्यम से, हम ए.बी.ए. और ए.बी.डी. की प्रभावशीलता को सत्यापित करते हैं, और दिखाते हैं कि ध्यान भार वितरण का एल.एल.एम. के आउटपुट पर महत्वपूर्ण प्रभाव पड़ता है।

Takeaways, Limitations

Takeaways:
एलएलएम के ध्यान तंत्र का विश्लेषण जेलब्रेक हमले और बचाव रणनीतियों को विकसित करने पर एक नया परिप्रेक्ष्य प्रदान करता है।
हम ए.बी.ए. और ए.बी.डी. नामक व्यावहारिक आक्रमण और रक्षा रणनीतियों का प्रस्ताव करते हैं, तथा प्रयोगात्मक रूप से उनकी प्रभावशीलता का सत्यापन करते हैं।
हम एलएलएम के आउटपुट पर ध्यान भार वितरण के प्रभाव की जांच करते हैं, तथा एलएलएम सुरक्षा को बढ़ाने के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करते हैं।
Limitations:
प्रस्तावित एबीए और एबीडी की सामान्यता और विभिन्न एलएलएम पर उनकी प्रयोज्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
अधिक परिष्कृत और विविध जेलब्रेक हमले तकनीकों के खिलाफ एबीए और एबीडी की प्रभावशीलता को सत्यापित करने की आवश्यकता है।
ध्यान भार वितरण विश्लेषण के अतिरिक्त अन्य कारकों (जैसे मॉडल आर्किटेक्चर, प्रशिक्षण डेटा) के प्रभाव पर विचार करना आवश्यक है।
👍