Red-teaming the Multimodal Reasoning: Jailbreaking Vision-Language Models via Cross-modal Entanglement Attacks

Created by

Haebom

저자

Yu Yan, Sheng Sun, Shengjia Cheng, Teli Liu, Mingfeng Li, Min Liu

💡 개요

본 논문은 멀티모달 추론 능력을 가진 Vision-Language Models (VLMs)의 잠재적 유해 작업 수행 가능성에 주목하여, 기존 블랙박스 공격 방식의 한계를 극복하는 새로운 공격 방법론인 CrossTALK를 제안합니다. CrossTALK는 지식 확장, 교차 모달 단서 얽힘, 시나리오 중첩을 통해 VLM의 안전 정렬 패턴을 우회하여 유해한 결과물을 도출합니다. 실험 결과, 제안된 방법이 최첨단 공격 성공률을 달성했음을 보여줍니다.

🔑 시사점 및 한계

•

VLMs의 멀티모달 추론 능력은 복잡한 유해 작업에 악용될 수 있으며, 이에 대한 효과적인 방어 및 레드팀 공격 전략이 필요합니다.

•

CrossTALK는 기존 공격 방식보다 더 복잡하고 확장 가능한 교차 모달 공격을 통해 VLM의 안전 장치를 우회하는 새로운 접근 방식을 제시합니다.

•

제안된 공격 방법론의 효과를 실증적으로 입증하였으나, VLM의 지속적으로 발전하는 안전 정렬 메커니즘에 대한 지속적인 연구 및 방어 기법 개발이 필요합니다.

PDF 보기

Made with Slashpage