इस शोधपत्र में, हम टेक्स्ट इनवर्जन (TI) का उपयोग करके प्रसार मॉडल (DMs) पर विषाक्तता के हमलों का व्यवस्थित विश्लेषण करते हैं। सबसे पहले, हम सिमेंटिक सेंसिटिविटी मैप्स का परिचय देते हैं, जो टेक्स्ट एम्बेडिंग पर विषाक्तता के प्रभावों को देखने की एक नई विधि है। हम प्रयोगात्मक रूप से सत्यापित करते हैं कि DMs समय के चरणों में असमान अधिगम व्यवहार प्रदर्शित करते हैं, विशेष रूप से कम-शोर वाले नमूनों पर ध्यान केंद्रित करते हुए। विषाक्तता के हमले मुख्य रूप से कम समय के चरणों में प्रतिकूल संकेतों को इंजेक्ट करके इस पूर्वाग्रह को प्राप्त करते हैं। हम यह भी देखते हैं कि प्रतिकूल संकेत प्रशिक्षण डेटा में प्रासंगिक वैचारिक क्षेत्रों से सीखने को हटाकर TI प्रक्रिया को दूषित करते हैं। इस अंतर्दृष्टि के आधार पर, हम सुरक्षित क्षेत्र प्रशिक्षण (SZT) का प्रस्ताव करते हैं, जो एक नया रक्षा तंत्र है जिसमें तीन मुख्य घटक होते हैं: (1) उच्च-आवृत्ति विषाक्तता संकेतों को कमजोर करने के लिए JPEG संपीड़न, (2) कम समय के चरणों में प्रतिकूल संकेतों से बचने के लिए TI प्रशिक्षण के दौरान उच्च समय चरणों को सीमित करना, और (3) प्रासंगिक क्षेत्रों तक सीखने को सीमित करने के लिए हानि मास्किंग। कई विषाक्तता विधियों पर व्यापक प्रयोगों के माध्यम से, हम दिखाते हैं कि SZT सभी विषाक्तता हमलों के खिलाफ TI की मजबूती में महत्वपूर्ण रूप से सुधार करता है और पहले से प्रकाशित बचावों की तुलना में उत्पादन गुणवत्ता में सुधार करता है।