Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Red-Teaming Text-to-Image Systems by Rule-based Preference Modeling

Created by
  • Haebom

저자

Yichuan Cao, Yibo Miao, Xiao-Shan Gao, Yinpeng Dong

개요

본 논문은 텍스트-이미지(T2I) 모델의 윤리적, 안전성 문제를 해결하기 위해 새로운 적대적 공격 기법인 Rule-based Preference modeling Guided Red-Teaming (RPG-RT)을 제안합니다. 기존의 화이트박스 및 블랙박스 접근 방식의 한계를 극복하기 위해, RPG-RT는 대규모 언어 모델(LLM)을 활용하여 프롬프트를 반복적으로 수정하고, T2I 시스템의 피드백을 통해 LLM을 미세 조정합니다. 특히, 규칙 기반 선호도 모델링을 통해 정교한 피드백 분석 및 LLM의 동적 적응을 가능하게 합니다. 다양한 안전 메커니즘을 갖춘 19개의 T2I 시스템, 3개의 상용 API 서비스, 그리고 T2V 모델을 대상으로 한 실험을 통해 RPG-RT의 우수성과 실용성을 검증하였습니다.

시사점, 한계점

시사점:
기존의 T2I 모델 안전성 평가 방법의 한계를 극복하는 새로운 적대적 공격 기법 제시
폐쇄형 모델 및 알려지지 않은 다양한 방어 메커니즘에 대한 효과적인 공격 가능성 입증
LLM과 규칙 기반 선호도 모델링을 결합한 효율적인 적응 학습 전략 제시
상용 API 서비스를 포함한 다양한 T2I 시스템에 대한 실험적 검증을 통해 실용성 확인
한계점:
규칙 기반 선호도 모델링의 규칙 설계가 주관적일 수 있으며, 이는 성능에 영향을 미칠 수 있음.
LLM의 성능에 의존적이며, LLM 자체의 한계가 RPG-RT의 성능을 제한할 수 있음.
새로운 방어 메커니즘이 등장할 경우, 규칙의 지속적인 업데이트가 필요함.
👍