Text-to-image 모델은 자연어 설명으로부터 고품질 이미지를 생성하지만, 안전성 조치를 우회하는 적대적 프롬프트에 취약합니다. SafeGuider는 Stable Diffusion (SD) 모델의 텍스트 인코더 연구를 기반으로, 안전성 제어를 강화하고 생성 품질을 유지하는 2단계 프레임워크입니다. 이 프레임워크는 임베딩 수준 인식 모델과 안전 인식 특징 삭제 빔 서치 알고리즘을 결합하여, 양호한 프롬프트에 대한 고품질 이미지 생성과 도메인 내/외부 공격 모두에 대한 견고한 방어를 제공합니다. SafeGuider는 다양한 공격 시나리오에서 5.48%의 최대 공격 성공률을 달성하고, 안전하지 않은 프롬프트에 대해 안전하고 의미 있는 이미지를 생성합니다. 또한 SD 모델뿐만 아니라 Flux 모델과 같은 다른 텍스트-이미지 모델에도 적용 가능합니다.
시사점, 한계점
•
시사점:
◦
적대적 프롬프트에 대한 텍스트-이미지 모델의 취약성 문제 해결에 기여.
◦
임베딩 수준 인식 모델과 안전 인식 특징 삭제 빔 서치 알고리즘을 통합하여 안전성과 생성 품질을 모두 달성.