Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Safe Synthetic Image Generation On the Web: A Multimodal Robust NSFW Defense and Million Scale Dataset

Created by
  • Haebom

저자

Muhammad Shahid Muneer, Simon S. Woo

개요

본 논문은 Text-to-Image (T2I) 모델의 발전으로 인해 발생하는 NSFW 콘텐츠 생성 및 웹 사회 오염 문제를 해결하기 위한 연구를 제시합니다. 기존의 NSFW 필터 및 사후 보안 검사의 취약성을 지적하며, 텍스트 및 이미지 모달리티에 대한 적대적 공격에 강인한 방어 메커니즘의 필요성을 강조합니다. 이를 위해, 백만 스케일의 텍스트 프롬프트와 이미지 쌍, 그리고 적대적 예제들을 포함하는 다모달 NSFW 데이터셋을 제시하고, 적대적 공격에 강건한 다모달 NSFW 방어 모델을 개발합니다. 실험 결과, 제안된 모델은 기존 최첨단 NSFW 탐지 방법보다 높은 정확도와 재현율을 달성하고, 다모달 적대적 공격 시나리오에서 공격 성공률(ASR)을 획기적으로 감소시킴을 보여줍니다.

시사점, 한계점

시사점:
백만 스케일의 다모달 NSFW 데이터셋을 제공하여 향후 연구에 기여.
적대적 공격에 강인한 다모달 NSFW 방어 모델을 제시.
기존 SOTA NSFW 탐지 방법 대비 높은 정확도와 재현율을 달성.
다모달 적대적 공격 시나리오에서 공격 성공률을 획기적으로 감소.
한계점:
제안된 데이터셋의 생성 과정 및 데이터 품질에 대한 자세한 설명 부족.
다양한 유형의 적대적 공격에 대한 일반화 성능 평가 부족.
실제 웹 환경에서의 성능 평가 부족.
장기적인 관점에서의 지속적인 적대적 공격에 대한 방어 성능에 대한 검증 부족.
👍