दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

एलएलएम और एआई एजेंटों पर हमला: बड़े भाषा मॉडल के खिलाफ विज्ञापन एम्बेडिंग हमले

Created by
  • Haebom

लेखक

किमिंग गुओ, जिनवेन तांग, ज़िंगरान हुआंग

रूपरेखा

यह पत्र विज्ञापन इंजेक्शन हमलों (AEA) का परिचय देता है, जो बड़े पैमाने पर भाषा मॉडल (LLM) के लिए एक नया सुरक्षा खतरा है। AEA दो कम लागत वाले वैक्टर के माध्यम से मॉडल आउटपुट और AI एजेंटों में प्रचारात्मक या दुर्भावनापूर्ण सामग्री को गुप्त रूप से इंजेक्ट करता है: प्रतिकूल संकेतों को जोड़ने के लिए तृतीय-पक्ष सेवा वितरण प्लेटफार्मों का शोषण करना या हमलावर डेटा के साथ ठीक-ठीक बैकडोर के साथ ओपन-सोर्स चेकपॉइंट प्रकाशित करना। पारंपरिक सटीकता-क्षीण करने वाले हमलों के विपरीत, AEA सूचना अखंडता से समझौता करता है, जिससे मॉडल सौम्य दिखाई देता है लेकिन गुप्त रूप से विज्ञापन, प्रचार या अभद्र भाषा लौटाता है। यह पत्र हमले की पाइपलाइन का विवरण देता है, पांच हितधारक पीड़ित समूहों को मैप करता है, और एक प्रारंभिक संकेत-आधारित स्व-जांच रक्षा प्रस्तुत करता है

Takeaways, Limitations

Takeaways:
हमने एलएलएम के लिए एक नए सुरक्षा खतरे, एईए की पहचान की है, तथा इसके आक्रमण के तरीके का विस्तार से विश्लेषण किया है।
एईए हमलों के खिलाफ प्रारंभिक प्रॉम्प्ट-आधारित स्व-जांच रक्षा तकनीक की प्रस्तुति।
एलएलएम सुरक्षा में कमजोरियों पर प्रकाश डालते हुए, हम एआई सुरक्षा समुदाय से सक्रिय प्रतिक्रियाओं की आवश्यकता को उठाते हैं।
Limitations:
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि प्रस्तावित रक्षा तकनीकें सभी AEA हमले प्रकारों के विरुद्ध प्रभावी हैं या नहीं।
एईए हमलों के विभिन्न प्रकारों और मापनीयता का गहन विश्लेषण आवश्यक है।
वास्तविक दुनिया के वातावरण में AEA हमलों के व्यापक प्रयोग और सत्यापन का अभाव।
👍