Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Rainbow Noise: Kiểm tra ứng suất của các máy phát hiện meme có hại đa phương thức trên nội dung LGBTQ

작성자
  • Haebom

Tác giả

Nhiễm Đồng, Songtao Wei, Jiaqi Liu, Lanruo Wang

Phác thảo

Bài báo này đề cập đến vấn đề các meme thù hận nhắm vào cộng đồng LGBTQ+ né tránh hệ thống phát hiện ngay cả với những thay đổi nhỏ đối với chú thích hoặc hình ảnh. Sử dụng tập dữ liệu PrideMM, chúng tôi xây dựng chuẩn mực độ mạnh mẽ đầu tiên bằng cách kết hợp bốn cuộc tấn công chú thích thực tế và ba lỗi làm hỏng hình ảnh phổ biến. Sử dụng hai bộ phát hiện tiên tiến, MemeCLIP và MemeBLIP2, làm nghiên cứu điển hình, chúng tôi trình bày một Bộ điều hợp khử nhiễu văn bản (TDA) nhẹ giúp cải thiện khả năng phục hồi của MemeBLIP2. Kết quả thử nghiệm cho thấy MemeCLIP suy giảm nhẹ nhàng hơn, trong khi MemeBLIP2 đặc biệt nhạy cảm với việc chỉnh sửa chú thích gây trở ngại cho quá trình xử lý ngôn ngữ. Tuy nhiên, việc bổ sung TDA không chỉ giải quyết điểm yếu này mà còn biến MemeBLIP2 trở thành mô hình mạnh mẽ nhất nói chung. Phân tích sâu hơn cho thấy rằng mặc dù tất cả các hệ thống đều phụ thuộc nhiều vào văn bản, nhưng lựa chọn kiến trúc và dữ liệu tiền huấn luyện có tác động đáng kể đến độ mạnh mẽ. Chuẩn mực này làm nổi bật các lỗ hổng trong các mô hình an toàn đa phương thức hiện tại và chứng minh rằng các mô-đun nhẹ, được nhắm mục tiêu như TDA là một cách hiệu quả để đạt được khả năng phòng thủ mạnh mẽ hơn.

Takeaways, Limitations

Takeaways:
Chúng tôi nhấn mạnh những thách thức trong việc phát hiện các meme thù hận nhắm vào cộng đồng LGBTQ+ và nhu cầu phát triển các mô hình mạnh mẽ để giải quyết chúng.
Chúng tôi so sánh và phân tích điểm mạnh và điểm yếu của MemeCLIP và MemeBLIP2 để đề xuất hướng phát triển mô hình trong tương lai.
Chúng tôi chứng minh rằng tính mạnh mẽ của các mô hình an toàn đa phương thức có thể được cải thiện thông qua các mô-đun TDA nhẹ.
Chúng tôi nhấn mạnh tầm quan trọng của việc lựa chọn kiến trúc và dữ liệu đào tạo trước trong tính mạnh mẽ của các mô hình đa phương thức.
Limitations:
Do phụ thuộc vào tập dữ liệu PrideMM, cần nghiên cứu thêm để xác định khả năng khái quát hóa cho các tập dữ liệu khác.
Nó có thể chỉ giới hạn ở việc đánh giá một loại tấn công cụ thể, thay vì đánh giá toàn diện tất cả các loại tấn công.
Hiệu quả của TDA có thể bị giới hạn ở các mô hình và tập dữ liệu cụ thể và cần nghiên cứu thêm để xác định khả năng tổng quát hóa của nó cho các mô hình và tập dữ liệu khác.
👍