एलएलएम और एआई एजेंटों पर हमला: बड़े भाषा मॉडल के खिलाफ विज्ञापन एम्बेडिंग हमले

Created by

Haebom

लेखक

किमिंग गुओ, जिनवेन तांग, ज़िंगरान हुआंग

रूपरेखा

यह पत्र विज्ञापन इंजेक्शन हमलों (AEA) का परिचय देता है, जो बड़े पैमाने पर भाषा मॉडल (LLM) के लिए एक नया सुरक्षा खतरा है। AEA दो कम लागत वाले वैक्टर के माध्यम से मॉडल आउटपुट और AI एजेंटों में प्रचारात्मक या दुर्भावनापूर्ण सामग्री को गुप्त रूप से इंजेक्ट करता है: प्रतिकूल संकेतों को जोड़ने के लिए तृतीय-पक्ष सेवा वितरण प्लेटफार्मों का शोषण करना या हमलावर डेटा के साथ ठीक-ठीक बैकडोर के साथ ओपन-सोर्स चेकपॉइंट प्रकाशित करना। पारंपरिक सटीकता-क्षीण करने वाले हमलों के विपरीत, AEA सूचना अखंडता से समझौता करता है, जिससे मॉडल सौम्य दिखाई देता है लेकिन गुप्त रूप से विज्ञापन, प्रचार या अभद्र भाषा लौटाता है। यह पत्र हमले की पाइपलाइन का विवरण देता है, पांच हितधारक पीड़ित समूहों को मैप करता है, और एक प्रारंभिक संकेत-आधारित स्व-जांच रक्षा प्रस्तुत करता है

Takeaways, Limitations

•

Takeaways:

◦

हमने एलएलएम के लिए एक नए सुरक्षा खतरे, एईए की पहचान की है, तथा इसके आक्रमण के तरीके का विस्तार से विश्लेषण किया है।

◦

एईए हमलों के खिलाफ प्रारंभिक प्रॉम्प्ट-आधारित स्व-जांच रक्षा तकनीक की प्रस्तुति।

◦

एलएलएम सुरक्षा में कमजोरियों पर प्रकाश डालते हुए, हम एआई सुरक्षा समुदाय से सक्रिय प्रतिक्रियाओं की आवश्यकता को उठाते हैं।

•

Limitations:

◦

यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि प्रस्तावित रक्षा तकनीकें सभी AEA हमले प्रकारों के विरुद्ध प्रभावी हैं या नहीं।

◦

एईए हमलों के विभिन्न प्रकारों और मापनीयता का गहन विश्लेषण आवश्यक है।

◦

वास्तविक दुनिया के वातावरण में AEA हमलों के व्यापक प्रयोग और सत्यापन का अभाव।

पीडीएफ देखें

Made with Slashpage

दैनिक अर्क्सिव

एलएलएम और एआई एजेंटों पर हमला: बड़े भाषा मॉडल के खिलाफ विज्ञापन एम्बेडिंग हमले

लेखक

रूपरेखा

Takeaways, Limitations