Sign In

T2I-RiskyPrompt: A Benchmark for Safety Evaluation, Attack, and Defense on Text-to-Image Model

Created by
  • Haebom
Category
Empty

저자

Chenyu Zhang, Tairen Zhang, Lanjun Wang, Ruidong Chen, Wenhui Li, Anan Liu

개요

본 논문은 텍스트-이미지 변환(T2I) 모델의 안전성을 평가하기 위한 종합적인 벤치마크인 T2I-RiskyPrompt를 제시합니다. 기존의 위험한 프롬프트 데이터셋의 한계점(위험 범주 제한, 세분화된 주석 부족, 낮은 효과)을 해결하기 위해, 6개의 주요 범주와 14개의 세부 하위 범주로 구성된 계층적 위험 분류 체계를 개발했습니다. 이 체계를 기반으로 위험한 프롬프트를 수집하고 주석을 달아, 6,432개의 효과적인 위험한 프롬프트를 확보했습니다. 각 프롬프트는 계층적 범주 라벨과 상세한 위험 이유로 주석 처리되었습니다. 또한, 평가를 용이하게 하기 위해, MLLM을 안전성 주석과 명시적으로 정렬하는 이유 기반 위험 이미지 감지 방법을 제안했습니다. T2I-RiskyPrompt를 기반으로 8개의 T2I 모델, 9개의 방어 방법, 5개의 안전 필터 및 5개의 공격 전략에 대한 포괄적인 평가를 수행하여 T2I 모델 안전성에 대한 9가지 주요 통찰력을 제공했습니다.

시사점, 한계점

시사점:
T2I 모델의 안전성 평가를 위한 포괄적인 벤치마크 제공.
계층적 위험 분류 체계를 통해 위험 범주를 세분화.
위험 이유를 포함한 상세 주석 제공.
평가를 위한 reason-driven 위험 이미지 감지 방법 제안.
다양한 T2I 모델, 방어 방법, 안전 필터 및 공격 전략에 대한 종합적인 평가 수행.
T2I 모델 안전성에 대한 9가지 주요 통찰력 제공.
다양한 연구 분야에 T2I-RiskyPrompt 적용 가능성 제시.
데이터셋과 코드 공개 (https://github.com/datar001/T2I-RiskyPrompt).
한계점:
논문에 구체적인 한계점은 명시되지 않음. (논문 초록 내용에 한계점에 대한 언급 없음)
👍