Mặc dù hiệu suất của các mô hình chuyển đổi văn bản thành hình ảnh (T2I) đã được cải thiện gần đây, bài báo này vẫn nêu lên những lo ngại về việc tạo ra nội dung NSFW, bao gồm các hình ảnh khiêu dâm, bạo lực, nhạy cảm về chính trị và phản cảm. Để giải quyết vấn đề này, chúng tôi xin giới thiệu PromptGuard, một kỹ thuật kiểm duyệt nội dung mới. Lấy cảm hứng từ cơ chế nhắc nhở hệ thống của các mô hình ngôn ngữ quy mô lớn (LLM), PromptGuard tối ưu hóa các nhắc nhở mềm an toàn (P*), đóng vai trò là các nhắc nhở hệ thống ngầm định trong không gian nhúng văn bản của các mô hình T2I. Điều này cho phép tạo ra hình ảnh an toàn và chân thực mà không ảnh hưởng đến hiệu quả suy luận hoặc yêu cầu các mô hình proxy. Hơn nữa, chúng tôi tối ưu hóa các nhắc nhở mềm dành riêng cho từng danh mục và tích hợp chúng để cung cấp hướng dẫn an toàn, nâng cao độ tin cậy và khả năng sử dụng. Các thử nghiệm mở rộng trên năm tập dữ liệu chứng minh rằng PromptGuard giảm thiểu hiệu quả việc tạo ra nội dung NSFW trong khi vẫn duy trì đầu ra tích cực chất lượng cao. Nó đạt tốc độ tăng 3,8 lần so với các phương pháp hiện có và giảm tỷ lệ không an toàn tối ưu xuống còn 5,84%, vượt trội hơn tám biện pháp phòng thủ tiên tiến.