Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PromptGuard: Soft Prompt-Guided Unsafe Content Moderation for Text-to-Image Models

Created by
  • Haebom

저자

Lingzhi Yuan, Xinfeng Li, Chejian Xu, Guanhong Tao, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu, Bo Li

개요

본 논문은 최근 텍스트-이미지 생성 모델(T2I)의 성능 향상에도 불구하고, 성적으로 암시적인 이미지, 폭력적인 이미지, 정치적으로 민감한 이미지, 불쾌한 이미지 등의 NSFW 콘텐츠 생성에 대한 우려를 제기하며, 이를 해결하기 위한 새로운 콘텐츠 조절 기법인 PromptGuard를 제시합니다. PromptGuard는 대규모 언어 모델(LLM)의 시스템 프롬프트 메커니즘에서 영감을 얻어, T2I 모델의 텍스트 임베딩 공간 내에 암시적인 시스템 프롬프트 역할을 하는 안전 소프트 프롬프트(P*)를 최적화합니다. 이를 통해 추론 효율성을 저하시키거나 프록시 모델을 필요로 하지 않으면서도 안전하고 사실적인 이미지 생성을 가능하게 합니다. 또한, 카테고리별 소프트 프롬프트를 최적화하고 이를 통합하여 안전 지침을 제공하는 분할 정복 전략을 통해 신뢰성과 유용성을 향상시킵니다. 다섯 개의 데이터셋에 대한 광범위한 실험을 통해 PromptGuard가 고품질의 양성 출력을 유지하면서 NSFW 콘텐츠 생성을 효과적으로 완화함을 보여줍니다. 기존 방법보다 3.8배 빠른 속도를 달성하며, 최적의 안전하지 않은 비율을 5.84%까지 낮추어 8개의 최첨단 방어 기법을 능가합니다.

시사점, 한계점

시사점:
T2I 모델의 NSFW 콘텐츠 생성 문제에 대한 효과적이고 효율적인 해결책 제시
기존 방법보다 훨씬 빠른 속도로 NSFW 콘텐츠 생성을 감소시킴
시스템 프롬프트 메커니즘을 T2I 모델에 적용하는 새로운 접근 방식 제시
안전성과 품질을 동시에 고려한 균형 잡힌 성능 달성
한계점:
특정 데이터셋에 대한 성능 평가 결과이므로, 다른 데이터셋이나 모델에 대한 일반화 가능성 검증 필요
새로운 유형의 NSFW 콘텐츠에 대한 적응력에 대한 추가 연구 필요
안전 소프트 프롬프트 최적화 과정의 투명성 및 설명 가능성 향상 필요
5.84%의 안전하지 않은 비율은 완벽한 해결책이 아니며, 지속적인 개선 필요
👍