Trong bài báo này, chúng tôi phân tích một cách có hệ thống các cuộc tấn công đầu độc (opinion) trên các mô hình khuếch tán (DM) bằng cách sử dụng đảo ngược văn bản (TI). Đầu tiên, chúng tôi giới thiệu Bản đồ Độ nhạy Ngữ nghĩa (Semantic Sensitivity Maps), một phương pháp mới để trực quan hóa tác động của đầu độc lên các nhúng văn bản. Chúng tôi xác minh bằng thực nghiệm rằng DM thể hiện hành vi học không đồng nhất qua các bước thời gian, đặc biệt tập trung vào các mẫu có độ nhiễu thấp. Các cuộc tấn công đầu độc thừa hưởng sự thiên vị này bằng cách chèn các tín hiệu đối nghịch chủ yếu ở các bước thời gian thấp. Chúng tôi cũng quan sát thấy các tín hiệu đối nghịch làm hỏng quá trình TI bằng cách chuyển hướng việc học khỏi các vùng khái niệm liên quan trong dữ liệu huấn luyện. Dựa trên hiểu biết này, chúng tôi đề xuất Huấn luyện Vùng An toàn (SZT), một cơ chế phòng thủ mới bao gồm ba thành phần chính: (1) nén JPEG để làm suy yếu các tín hiệu đầu độc tần số cao, (2) hạn chế các bước thời gian cao trong quá trình huấn luyện TI để tránh các tín hiệu đối nghịch ở các bước thời gian thấp, và (3) che mất để giới hạn việc học ở các vùng liên quan. Thông qua các thử nghiệm mở rộng trên một số phương pháp đầu độc, chúng tôi chứng minh rằng SZT cải thiện đáng kể độ mạnh mẽ của TI trước tất cả các cuộc tấn công đầu độc và cải thiện chất lượng tạo ra so với các biện pháp phòng thủ đã công bố trước đây.