Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning

Created by
  • Haebom

저자

Chenyu Zhang, Lanjun Wang, Yiwen Ma, Wenhui Li, An-An Liu

개요

본 논문은 Text-to-Image(T2I) 모델의 안전 필터 우회 공격에 대한 새로운 방법인 Reason2Attack(R2A)를 제안합니다. 기존의 jailbreaking 공격은 LLM의 T2I 모델 및 안전 필터에 대한 이해 부족으로 인해 많은 쿼리가 필요했지만, R2A는 LLM의 추론 능력을 향상시켜 효율적인 공격을 가능하게 합니다. R2A는 Frame Semantics 기반의 CoT(Chain of Thought) 예시 생성 파이프라인을 통해 관련 용어와 맥락 그림을 식별하여 적대적 프롬프트를 생성하고, 이를 이용하여 LLM을 미세 조정합니다. 또한, 강화 학습을 통해 프롬프트 길이, 은밀성, 효과성을 고려한 공격 프로세스 보상을 설계하여 추론 정확도를 높입니다. 다양한 T2I 모델에 대한 실험 결과, R2A는 기존 방법보다 적은 쿼리로 더 높은 공격 성공률을 달성하며, 생성된 적대적 프롬프트는 오픈소스 및 상용 T2I 모델 모두에서 높은 전이성을 보입니다.

시사점, 한계점

시사점:
LLM의 추론 능력 향상을 통해 T2I 모델의 안전 필터 우회 공격 효율을 높일 수 있음을 보여줍니다.
기존 jailbreaking 공격의 한계점인 많은 쿼리 수요를 극복하는 새로운 방법을 제시합니다.
생성된 적대적 프롬프트의 높은 전이성은 다양한 T2I 모델에 대한 광범위한 취약성을 시사합니다.
한계점:
R2A의 효과는 사용된 LLM과 T2I 모델에 따라 달라질 수 있습니다.
R2A가 악용될 경우 T2I 모델의 안전성에 심각한 위협이 될 수 있습니다.
Frame Semantics 기반의 CoT 예시 생성 파이프라인의 성능이 R2A의 전체 성능에 영향을 미칠 수 있습니다.
새로운 안전 필터나 방어 메커니즘이 개발될 경우 R2A의 효과가 감소할 수 있습니다.
👍