यह पत्र विज्ञापन इंजेक्शन हमलों (AEA) का परिचय देता है, जो बड़े पैमाने पर भाषा मॉडल (LLM) के लिए एक नया सुरक्षा खतरा है। AEA दो कम लागत वाले वैक्टर के माध्यम से मॉडल आउटपुट और AI एजेंटों में प्रचारात्मक या दुर्भावनापूर्ण सामग्री को गुप्त रूप से इंजेक्ट करता है: प्रतिकूल संकेतों को जोड़ने के लिए तृतीय-पक्ष सेवा वितरण प्लेटफार्मों का शोषण करना या हमलावर डेटा के साथ ठीक-ठीक बैकडोर के साथ ओपन-सोर्स चेकपॉइंट प्रकाशित करना। पारंपरिक सटीकता-क्षीण करने वाले हमलों के विपरीत, AEA सूचना अखंडता से समझौता करता है, जिससे मॉडल सौम्य दिखाई देता है लेकिन गुप्त रूप से विज्ञापन, प्रचार या अभद्र भाषा लौटाता है। यह पत्र हमले की पाइपलाइन का विवरण देता है, पांच हितधारक पीड़ित समूहों को मैप करता है, और एक प्रारंभिक संकेत-आधारित स्व-जांच रक्षा प्रस्तुत करता है