Sign In

Jailbreaking Safeguarded Text-to-Image Models via Large Language Models

Created by
  • Haebom
Category
Empty

저자

Zhengyuan Jiang, Yuepeng Hu, Yuchen Yang, Yinzhi Cao, Neil Zhenqiang Gong

개요

본 논문은 안전 필터를 우회하여 텍스트-이미지 모델이 유해 콘텐츠를 생성하도록 하는 새로운 방법인 PromptTune을 제안합니다. 기존의 질의 기반 공격 방식과 달리, 미세 조정된 대규모 언어 모델(AttackLLM)을 사용하여 효율적으로 적대적 프롬프트를 생성합니다. 세 가지 유해 프롬프트 데이터셋과 다섯 가지 안전 필터를 대상으로 실험한 결과, 기존의 공격 방식보다 효과적으로 안전 필터를 우회하는 것을 보여줍니다.

시사점, 한계점

시사점: 텍스트-이미지 모델의 안전 필터 우회에 대한 새로운 공격 기법을 제시하고, 기존 방법보다 효율적이고 효과적인 방법임을 실험적으로 증명했습니다. 안전 필터의 취약성을 보여주고, 향후 더욱 강력한 안전 메커니즘 개발의 필요성을 시사합니다. 다른 질의 기반 공격에도 도움을 줄 수 있습니다.
한계점: 특정 모델과 안전 필터에 대해서만 평가되었으므로, 다른 모델이나 안전 필터에 대한 일반화 가능성은 추가 연구가 필요합니다. AttackLLM의 미세 조정 과정에 대한 자세한 설명이 부족합니다. 윤리적 문제점(유해 콘텐츠 생성)을 고려해야 합니다.
👍