본 논문은 대규모 비전-언어 모델(LVLMs)의 다중 모달 탈옥 공격 취약성을 다룹니다. 기존 연구에서 LVLMs가 안전하게 정렬되었음에도 불구하고 시각적 모달리티가 여전히 탈옥 공격에 취약하다는 사실을 밝혀냈습니다. 본 논문에서는 부분적으로 유해한 정보가 포함된 흐름도를 사용하여 LVLMs가 추가적인 유해 정보를 생성하도록 유도할 수 있음을 발견하고, 자동 생성된 흐름도 기반의 탈옥 공격 방법인 FC-Attack을 제안합니다. FC-Attack은 사전 훈련된 LLM을 미세 조정하여 단계 설명 생성기를 만들고, 이를 사용하여 유해한 질의에 해당하는 단계 설명을 생성한 후, 이를 세 가지 모양(수직, 수평, S자형)의 흐름도로 변환하여 시각적 프롬프트로 사용합니다. 이러한 흐름도는 양성 텍스트 프롬프트와 결합되어 LVLMs에 대한 탈옥 공격을 실행합니다. Advbench 데이터셋을 사용한 평가 결과, Gemini-1.5, Llaval-Next, Qwen2-VL, InternVL-2.5 모델에서 90% 이상의 공격 성공률을 달성하여 기존 방법을 능가함을 보였습니다. 또한 흐름도의 단계 수와 글꼴 스타일 등 공격 성능에 영향을 미치는 요소를 조사하고, AdaShield 등의 방어 기법을 탐색했습니다.