Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Wukong Framework để phát hiện không an toàn cho công việc trong các hệ thống chuyển văn bản thành hình ảnh

Created by
  • Haebom

Tác giả

Mingrui Liu, Sixiao Zhang, Cheng Long

Phác thảo

Bài báo này đề xuất Wukong, một khuôn khổ mới để phát hiện hiệu quả và chính xác nội dung Không an toàn cho người dùng (NSFW) trong các mô hình chuyển văn bản thành hình ảnh (T2I). Các phương pháp dựa trên bộ lọc văn bản hiện có chỉ phân tích lời nhắc của người dùng, bỏ qua các biến thể cụ thể của mô hình và khiến chúng dễ bị tấn công đối nghịch. Các phương pháp dựa trên bộ lọc hình ảnh gặp phải chi phí tính toán cao và độ trễ dài. Wukong là một khuôn khổ dựa trên Transformer tận dụng các đầu ra trung gian (khử nhiễu sớm) của mô hình khuếch tán và tái sử dụng các tham số chú ý chéo được đào tạo trước từ U-Net. Điều này cho phép phát hiện sớm nội dung NSFW trong quá trình khuếch tán, loại bỏ nhu cầu chờ đợi trong toàn bộ quá trình tạo hình ảnh. Hơn nữa, chúng tôi trình bày một tập dữ liệu mới chứa lời nhắc, hạt giống và nhãn NSFW cụ thể của hình ảnh. Chúng tôi đánh giá Wukong trên tập dữ liệu này và hai điểm chuẩn công khai, chứng minh hiệu quả và độ chính xác vượt trội so với các phương pháp hiện có.

Takeaways, Limitations

Takeaways:
Chúng tôi đề xuất một phương pháp mới để phát hiện hiệu quả hàm lượng NSFW trong giai đoạn trung gian của quá trình khuếch tán của mô hình T2I.
Nó đạt hiệu quả cao hơn và độ chính xác tương tự hoặc tốt hơn so với các phương pháp hiện có (bộ lọc văn bản, bộ lọc hình ảnh).
Nó có thể đóng góp cho nghiên cứu trong tương lai bằng cách cung cấp bộ dữ liệu NSFW mới.
Limitations:
Không có thông tin chi tiết cụ thể về quy mô và tính đa dạng của tập dữ liệu được đề xuất.
Cần nghiên cứu thêm để xác định hiệu suất của Wukong có thể được khái quát hóa tốt như thế nào trên các mô hình T2I khác nhau và các loại nội dung NSFW khác nhau.
Người ta không đánh giá cao khả năng phục hồi của Wukong trước các cuộc tấn công của kẻ thù.
👍