본 논문은 텍스트-이미지(T2I) 모델의 윤리적, 안전성 문제를 해결하기 위해 새로운 적대적 공격 기법인 Rule-based Preference modeling Guided Red-Teaming (RPG-RT)을 제안합니다. 기존의 화이트박스 및 블랙박스 접근 방식의 한계를 극복하기 위해, RPG-RT는 대규모 언어 모델(LLM)을 활용하여 프롬프트를 반복적으로 수정하고, T2I 시스템의 피드백을 통해 LLM을 미세 조정합니다. 특히, 규칙 기반 선호도 모델링을 통해 정교한 피드백 분석 및 LLM의 동적 적응을 가능하게 합니다. 다양한 안전 메커니즘을 갖춘 19개의 T2I 시스템, 3개의 상용 API 서비스, 그리고 T2V 모델을 대상으로 한 실험을 통해 RPG-RT의 우수성과 실용성을 검증하였습니다.