Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models

Created by
  • Haebom

저자

Peigui Qi, Kunsheng Tang, Wenbo Zhou, Weiming Zhang, Nenghai Yu, Tianwei Zhang, Qing Guo, Jie Zhang

개요

Text-to-image 모델은 자연어 설명으로부터 고품질 이미지를 생성하지만, 안전성 조치를 우회하는 적대적 프롬프트에 취약합니다. SafeGuider는 Stable Diffusion (SD) 모델의 텍스트 인코더 연구를 기반으로, 안전성 제어를 강화하고 생성 품질을 유지하는 2단계 프레임워크입니다. 이 프레임워크는 임베딩 수준 인식 모델과 안전 인식 특징 삭제 빔 서치 알고리즘을 결합하여, 양호한 프롬프트에 대한 고품질 이미지 생성과 도메인 내/외부 공격 모두에 대한 견고한 방어를 제공합니다. SafeGuider는 다양한 공격 시나리오에서 5.48%의 최대 공격 성공률을 달성하고, 안전하지 않은 프롬프트에 대해 안전하고 의미 있는 이미지를 생성합니다. 또한 SD 모델뿐만 아니라 Flux 모델과 같은 다른 텍스트-이미지 모델에도 적용 가능합니다.

시사점, 한계점

시사점:
적대적 프롬프트에 대한 텍스트-이미지 모델의 취약성 문제 해결에 기여.
임베딩 수준 인식 모델과 안전 인식 특징 삭제 빔 서치 알고리즘을 통합하여 안전성과 생성 품질을 모두 달성.
공격 성공률을 최소화하고, 안전하지 않은 프롬프트에 대해 유의미한 이미지 생성.
SD 모델 및 다른 텍스트-이미지 모델에 적용 가능하여 범용성 입증.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍