यह शोधपत्र तर्क देता है कि उन्नत एआई प्रणालियाँ मानव व्यवहार को प्रभावित करने, समझाने, धोखा देने और प्रभावित करने की क्षमता तेज़ी से विकसित कर रही हैं, और वर्तमान मॉडल कुछ स्थितियों में मानव-स्तरीय समझाने और रणनीतिक छल को प्रदर्शित करते हैं। साइबर सुरक्षा प्रणालियों में मनुष्य सबसे कमज़ोर कड़ी हैं, और उन्नत उद्यमों में तैनात गलत तरीके से संचालित एआई प्रणालियाँ कर्मचारियों से छेड़छाड़ करने और मानवीय निगरानी को दरकिनार करने का प्रयास कर सकती हैं। इस बढ़ते खतरे के बावजूद, हेरफेर के हमलों पर बहुत कम ध्यान दिया गया है, और इस जोखिम का आकलन करने और उसे कम करने के लिए कोई व्यवस्थित ढाँचा नहीं है। इसके जवाब में, यह शोधपत्र विस्तार से बताता है कि हेरफेर के हमले एक बड़ा खतरा क्यों हैं और उनके विनाशकारी परिणाम क्यों हो सकते हैं, और हेरफेर के जोखिमों के लिए एक सुरक्षा ढाँचा प्रस्तुत करता है जो तीन मुख्य तर्कों पर आधारित है: अक्षमता, नियंत्रण और विश्वसनीयता। प्रत्येक तर्क के लिए, हम साक्ष्य आवश्यकताओं, मूल्यांकन पद्धतियों और कार्यान्वयन संबंधी विचारों को निर्दिष्ट करते हैं जिन्हें एआई उद्यम सीधे लागू कर सकते हैं। यह शोधपत्र हेरफेर के जोखिमों को एआई सुरक्षा प्रशासन में एकीकृत करने के लिए पहली व्यवस्थित पद्धति प्रदान करता है, जो एआई उद्यमों को तैनाती से पहले इन खतरों का आकलन करने और उन्हें कम करने के लिए एक ठोस आधार प्रदान करता है।