Bài báo này đề cập đến vấn đề các meme thù hận nhắm vào cộng đồng LGBTQ+ né tránh hệ thống phát hiện ngay cả với những thay đổi nhỏ đối với chú thích hoặc hình ảnh. Sử dụng tập dữ liệu PrideMM, chúng tôi xây dựng chuẩn mực độ mạnh mẽ đầu tiên bằng cách kết hợp bốn cuộc tấn công chú thích thực tế và ba lỗi làm hỏng hình ảnh phổ biến. Sử dụng hai bộ phát hiện tiên tiến, MemeCLIP và MemeBLIP2, làm nghiên cứu điển hình, chúng tôi trình bày một Bộ điều hợp khử nhiễu văn bản (TDA) nhẹ giúp cải thiện khả năng phục hồi của MemeBLIP2. Kết quả thử nghiệm cho thấy MemeCLIP suy giảm nhẹ nhàng hơn, trong khi MemeBLIP2 đặc biệt nhạy cảm với việc chỉnh sửa chú thích gây trở ngại cho quá trình xử lý ngôn ngữ. Tuy nhiên, việc bổ sung TDA không chỉ giải quyết điểm yếu này mà còn biến MemeBLIP2 trở thành mô hình mạnh mẽ nhất nói chung. Phân tích sâu hơn cho thấy rằng mặc dù tất cả các hệ thống đều phụ thuộc nhiều vào văn bản, nhưng lựa chọn kiến trúc và dữ liệu tiền huấn luyện có tác động đáng kể đến độ mạnh mẽ. Chuẩn mực này làm nổi bật các lỗ hổng trong các mô hình an toàn đa phương thức hiện tại và chứng minh rằng các mô-đun nhẹ, được nhắm mục tiêu như TDA là một cách hiệu quả để đạt được khả năng phòng thủ mạnh mẽ hơn.