दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

कैन: एलएलएम का अपहरण - दुर्भावनापूर्ण सिस्टम प्रॉम्प्ट के माध्यम से मानव वार्तालाप

Created by
  • Haebom

लेखक

वियत फाम, थाई ले

रूपरेखा

यह शोधपत्र "एआई-ह्यूमन कन्वर्सेशन हाइजैकिंग" प्रस्तुत करता है, जो एक नया सुरक्षा ख़तरा है जो बड़े पैमाने के भाषा मॉडल (एलएलएम) के सिस्टम प्रॉम्प्ट में हेरफेर करके केवल विशिष्ट प्रश्नों के लिए दुर्भावनापूर्ण उत्तर उत्पन्न करता है। दुर्भावनापूर्ण कर्ता ऑनलाइन प्रतीत होने वाले हानिरहित सिस्टम प्रॉम्प्ट को प्रसारित करके बड़े पैमाने पर सूचना हेरफेर कर सकते हैं। इस हमले को प्रदर्शित करने के लिए, शोधकर्ताओं ने CAIN विकसित किया, एक ऐसा एल्गोरिथम जो ब्लैक-बॉक्स सेटिंग में विशिष्ट लक्षित प्रश्नों के लिए स्वचालित रूप से दुर्भावनापूर्ण सिस्टम प्रॉम्प्ट उत्पन्न करता है। ओपन-सोर्स और व्यावसायिक एलएलएम, दोनों पर मूल्यांकन किए जाने पर, CAIN ने लक्षित प्रश्नों के लिए 40% तक F1 स्कोर में गिरावट हासिल की, जबकि सौम्य इनपुट के लिए उच्च सटीकता बनाए रखी। इसने सौम्य प्रश्नों पर प्रभाव को न्यूनतम रखते हुए विशिष्ट दुर्भावनापूर्ण उत्तर उत्पन्न करने के लिए 70% से अधिक का F1 स्कोर हासिल किया। ये परिणाम वास्तविक दुनिया के अनुप्रयोगों में एलएलएम की अखंडता और सुरक्षा सुनिश्चित करने के लिए मज़बूती उपायों के महत्व को उजागर करते हैं। स्रोत कोड सार्वजनिक रूप से उपलब्ध कराया जाएगा।

____T295981_____, Limitations

Takeaways:
हम एलएलएम के सिस्टम प्रॉम्प्ट में हेरफेर के माध्यम से एक नए प्रकार के सुरक्षा खतरे को प्रस्तुत करते हैं और अनुभवजन्य रूप से इसके खतरे को प्रदर्शित करते हैं।
इसमें एलएलएम की सुरक्षा और विश्वसनीयता सुनिश्चित करने के लिए उन्नत सुरक्षा और रक्षा तंत्र विकसित करने की आवश्यकता पर बल दिया गया है।
हम यह प्रदर्शित करते हैं कि CAIN एल्गोरिथम LLM में कमजोरियों पर प्रभावी ढंग से हमला कर सकता है, तथा LLM विकास और परिनियोजन के लिए नई दिशाएं सुझा सकता है।
ओपन सोर्स कोड अनुसंधान की पुनरुत्पादकता सुनिश्चित करता है और संबंधित अनुसंधान को प्रोत्साहित करता है।
Limitations:
CAIN एल्गोरिथम की प्रभावशीलता विशिष्ट LLM और प्रश्न प्रकार के आधार पर भिन्न हो सकती है। विभिन्न LLM और प्रश्न प्रकारों पर और अधिक शोध की आवश्यकता है।
जटिल वास्तविक दुनिया की स्थितियों में CAIN एल्गोरिथम की प्रभावशीलता का मूल्यांकन करने के लिए और अधिक शोध की आवश्यकता है।
यद्यपि यह अध्ययन एलएलएम के सिस्टम प्रॉम्प्ट हेरफेर पर केंद्रित था, तथापि अन्य प्रकार के हमलों पर भी शोध की आवश्यकता है।
CAIN रक्षा तकनीकों पर शोध का अभाव है। CAIN जैसे हमलों से बचाव के लिए और अधिक रक्षा तंत्र विकसित करने की आवश्यकता है।
👍