Bài báo này phân tích một cách hệ thống các cuộc tấn công đầu độc (opinion) vào kỹ thuật đảo ngược văn bản (TI) của các mô hình khuếch tán (DM). Đầu tiên, chúng tôi trình bày Bản đồ Độ nhạy Ngữ nghĩa (Semantic Sensitivity Maps), một phương pháp mới để trực quan hóa tác động của các cuộc tấn công đầu độc lên các nhúng văn bản. Tiếp theo, chúng tôi chứng minh bằng thực nghiệm rằng các DM thể hiện hành vi học không đồng nhất qua các bước thời gian, đặc biệt tập trung vào các mẫu có độ nhiễu thấp. Các cuộc tấn công đầu độc lợi dụng sự thiên vị này bằng cách đưa các tín hiệu đối nghịch chủ yếu vào các bước thời gian thấp. Cuối cùng, chúng tôi quan sát thấy các tín hiệu đối nghịch làm gián đoạn việc học từ các vùng khái niệm liên quan trong quá trình huấn luyện, do đó làm ảnh hưởng đến quá trình TI. Dựa trên những hiểu biết này, chúng tôi đề xuất Huấn luyện Vùng An toàn (SZT), một cơ chế phòng thủ mới bao gồm ba thành phần chính: 1. làm suy yếu các tín hiệu đầu độc tần số cao thông qua nén JPEG; 2. hạn chế các bước thời gian cao để tránh các tín hiệu đối nghịch ở các bước thời gian thấp; và 3. che phủ mất mát để hạn chế việc học vào các vùng liên quan. Thông qua các thử nghiệm mở rộng trên nhiều cuộc tấn công đầu độc khác nhau, chúng tôi chứng minh rằng SZT cải thiện đáng kể độ mạnh mẽ của TI trước tất cả các cuộc tấn công đầu độc và cải thiện chất lượng tạo ra so với các biện pháp phòng thủ đã công bố trước đây.