Sign In

FC-Attack: Jailbreaking Large Vision-Language Models via Auto-Generated Flowcharts

Created by
  • Haebom
Category
Empty

저자

Ziyi Zhang, Zhen Sun, Zongmin Zhang, Jihui Guo, Xinlei He

개요

본 논문은 대규모 비전-언어 모델(LVLMs)의 다중 모달 탈옥 공격 취약성을 다룹니다. 기존 연구에서 LVLMs가 안전하게 정렬되었음에도 불구하고 시각적 모달리티가 여전히 탈옥 공격에 취약하다는 사실을 밝혀냈습니다. 본 논문에서는 부분적으로 유해한 정보가 포함된 흐름도를 사용하여 LVLMs가 추가적인 유해 정보를 생성하도록 유도할 수 있음을 발견하고, 자동 생성된 흐름도 기반의 탈옥 공격 방법인 FC-Attack을 제안합니다. FC-Attack은 사전 훈련된 LLM을 미세 조정하여 단계 설명 생성기를 만들고, 이를 사용하여 유해한 질의에 해당하는 단계 설명을 생성한 후, 이를 세 가지 모양(수직, 수평, S자형)의 흐름도로 변환하여 시각적 프롬프트로 사용합니다. 이러한 흐름도는 양성 텍스트 프롬프트와 결합되어 LVLMs에 대한 탈옥 공격을 실행합니다. Advbench 데이터셋을 사용한 평가 결과, Gemini-1.5, Llaval-Next, Qwen2-VL, InternVL-2.5 모델에서 90% 이상의 공격 성공률을 달성하여 기존 방법을 능가함을 보였습니다. 또한 흐름도의 단계 수와 글꼴 스타일 등 공격 성능에 영향을 미치는 요소를 조사하고, AdaShield 등의 방어 기법을 탐색했습니다.

시사점, 한계점

시사점:
LVLMs의 시각적 모달리티가 흐름도 기반 탈옥 공격에 취약함을 밝힘.
기존 방법보다 높은 성공률을 달성하는 새로운 탈옥 공격 방법(FC-Attack) 제시.
흐름도의 단계 수와 글꼴 스타일 등 공격 성능에 영향을 미치는 요소를 규명.
AdaShield 등의 방어 기법의 효과 및 한계를 분석.
한계점:
특정 모델과 데이터셋에 대한 평가 결과만 제시. 다양한 모델과 데이터셋에 대한 추가적인 검증 필요.
AdaShield와 같은 방어 기법의 적용으로 유틸리티 저하 발생. 더욱 효과적이고 효율적인 방어 기법 개발 필요.
👍