दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

प्रीफ़िल-स्तरीय जेलब्रेक: बड़े भाषा मॉडल का ब्लैक-बॉक्स जोखिम विश्लेषण

Created by
  • Haebom

लेखक

याकाई ली, जीकांग हू, वेइदुआन सांग, लुपिंग मा, डोंगशेंग नी, वेइजुआन झांग, ऐमिन यू, यी सु, किंगजिया हुआंग, किहांग झोउ

रूपरेखा

यह शोधपत्र रीप्ले हमलों, जो बड़े पैमाने के भाषा मॉडल (एलएलएम) के लिए एक सुरक्षा ख़तरा है, पर एक अध्ययन के परिणाम प्रस्तुत करता है। यह उन हमलों पर केंद्रित है जो उपयोगकर्ता-नियंत्रित प्रतिक्रिया प्रीफ़िल विशेषता का फ़ायदा उठाते हैं, न कि पिछले अध्ययनों में मुख्य रूप से संबोधित प्रॉम्प्ट-स्तरीय हमलों पर। प्रीफ़िल हमलावरों को मॉडल आउटपुट की शुरुआत में हेरफेर करने की अनुमति देता है, जिससे हमले का प्रतिमान अनुनय-आधारित हमलों से मॉडल स्थिति में सीधे हेरफेर की ओर स्थानांतरित हो जाता है। प्रीफ़िल स्तर पर रीप्ले हमलों को वर्गीकृत करने और उनकी प्रभावशीलता का मूल्यांकन करने के लिए 14 एलएलएम पर ब्लैक-बॉक्स सुरक्षा विश्लेषण किया गया। प्रायोगिक परिणामों से पता चलता है कि अनुकूली विधियों का उपयोग करने वाले हमलों ने कई मॉडलों में 99% से अधिक सफलता दर हासिल की, और टोकन-स्तरीय संभाव्यता विश्लेषण ने पुष्टि की कि प्रारंभिक स्थिति हेरफेर के कारण पहली टोकन संभावना अस्वीकृति से सहयोग में बदल गई। इसके अलावा, हम प्रदर्शित करते हैं कि प्रीफ़िल स्तर पर रीप्ले हमले मौजूदा प्रॉम्प्ट-स्तरीय हमलों की सफलता दर को प्रभावी रूप से 10-15 प्रतिशत अंकों तक बढ़ा देते हैं। कई रक्षा रणनीतियों के मूल्यांकन से पता चला कि मौजूदा सामग्री फ़िल्टर सीमित सुरक्षा प्रदान करते हैं, और प्रॉम्प्ट और प्रीफ़िल के बीच परिचालन संबंध पर ध्यान केंद्रित करने वाली पहचान विधियाँ अधिक प्रभावी हैं। निष्कर्ष में, हम वर्तमान एलएलएम सुरक्षा संरेखण में कमजोरियों को उजागर करते हैं और भविष्य के सुरक्षा प्रशिक्षण में पूर्व-भरण हमले की सतहों को संबोधित करने की आवश्यकता पर जोर देते हैं।

Takeaways, Limitations

Takeaways:
हम एक नए प्रकार के री-ब्रेक हमले के अस्तित्व और गंभीरता का खुलासा करते हैं जो उपयोगकर्ता-नियंत्रित प्रतिक्रिया प्रीफिल कार्यक्षमता का लाभ उठाता है।
हम दिखाते हैं कि प्रीफिलिंग हमले मौजूदा प्रॉम्प्ट-आधारित हमलों को बढ़ा सकते हैं।
यह मौजूदा सामग्री फिल्टर की सीमाओं को उजागर करता है और प्रॉम्प्ट और प्रीफिल के बीच संबंध के आधार पर एक नई पहचान विधि की आवश्यकता का सुझाव देता है।
एलएलएम सुरक्षा में सुधार के लिए अनुसंधान दिशा-निर्देश सुझाना (प्रीफिल हमलों का जवाब देना)।
Limitations:
विश्लेषण किये जाने वाले मॉडलों के प्रकार और संख्या की सीमाएँ (14 मॉडल)।
प्रस्तावित पहचान विधि की सामान्यता और वास्तविक दुनिया के वातावरण में इसके अनुप्रयोग को निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
विभिन्न प्रकार के प्री-फिलिंग हमलों का व्यापक विश्लेषण उपलब्ध नहीं हो सका है।
👍