Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

PromptGuard: Kiểm duyệt nội dung không an toàn theo hướng dẫn của Prompt cho các mô hình chuyển văn bản thành hình ảnh

Created by
  • Haebom

Tác giả

Linh Chi Viên, Xinfeng Li, Chejian Xu, Guanhong Tao, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu, Bo Li

Phác thảo

Mặc dù hiệu suất của các mô hình chuyển đổi văn bản thành hình ảnh (T2I) đã được cải thiện gần đây, bài báo này vẫn nêu lên những lo ngại về việc tạo ra nội dung NSFW, bao gồm các hình ảnh khiêu dâm, bạo lực, nhạy cảm về chính trị và phản cảm. Để giải quyết vấn đề này, chúng tôi xin giới thiệu PromptGuard, một kỹ thuật kiểm duyệt nội dung mới. Lấy cảm hứng từ cơ chế nhắc nhở hệ thống của các mô hình ngôn ngữ quy mô lớn (LLM), PromptGuard tối ưu hóa các nhắc nhở mềm an toàn (P*), đóng vai trò là các nhắc nhở hệ thống ngầm định trong không gian nhúng văn bản của các mô hình T2I. Điều này cho phép tạo ra hình ảnh an toàn và chân thực mà không ảnh hưởng đến hiệu quả suy luận hoặc yêu cầu các mô hình proxy. Hơn nữa, chúng tôi tối ưu hóa các nhắc nhở mềm dành riêng cho từng danh mục và tích hợp chúng để cung cấp hướng dẫn an toàn, nâng cao độ tin cậy và khả năng sử dụng. Các thử nghiệm mở rộng trên năm tập dữ liệu chứng minh rằng PromptGuard giảm thiểu hiệu quả việc tạo ra nội dung NSFW trong khi vẫn duy trì đầu ra tích cực chất lượng cao. Nó đạt tốc độ tăng 3,8 lần so với các phương pháp hiện có và giảm tỷ lệ không an toàn tối ưu xuống còn 5,84%, vượt trội hơn tám biện pháp phòng thủ tiên tiến.

Takeaways, Limitations

Takeaways:
Cung cấp giải pháp hiệu quả cho vấn đề tạo nội dung NSFW của mô hình T2I.
Giảm việc tạo nội dung NSFW nhanh hơn nhiều so với các phương pháp hiện có.
Một cách tiếp cận mới để áp dụng cơ chế nhắc nhở hệ thống vào mô hình T2I được trình bày.
ĐạT được hiệu suất cân bằng đồng thời xem xét đến sự an toàn và chất lượng
Limitations:
Vì đây là kết quả đánh giá hiệu suất cho một tập dữ liệu cụ thể nên cần phải xác minh khả năng khái quát hóa cho các tập dữ liệu hoặc mô hình khác.
Cần nghiên cứu thêm về khả năng thích ứng với các loại nội dung NSFW mới.
Nhu cầu về tính minh bạch và khả năng giải thích cao hơn trong quá trình tối ưu hóa phần mềm an toàn.
Tỷ lệ không an toàn 5,84% không phải là giải pháp hoàn hảo và cần được cải thiện liên tục.
👍