Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves

Created by
  • Haebom

저자

Ruofan Wang, Juncheng Li, Yixu Wang, Bo Wang, Xiaosen Wang, Yan Teng, Yingchun Wang, Xingjun Ma, Yu-Gang Jiang

개요

본 논문은 대규모 비전-언어 모델(VLMs)의 안전한 배포를 위해, 모델의 취약점을 악용하여 유해한 출력을 유도하는 탈옥 공격에 대한 새로운 방법인 IDEATOR를 제안한다. IDEATOR는 VLM 자체를 강력한 적대적 모델로 활용하여, 표적화된 탈옥 텍스트를 생성하고 최첨단 확산 모델로 생성된 탈옥 이미지와 짝을 이룬다. 실험 결과, IDEATOR는 MiniGPT-4에 대해 94%의 공격 성공률(ASR)을 달성했으며, LLaVA, InstructBLIP, Chameleon에도 높은 ASR을 보였다. 또한, IDEATOR의 강력한 전이성과 자동화된 프로세스를 기반으로 3,654개의 다중 모드 탈옥 샘플로 구성된 안전성 벤치마크 VLJailbreakBench를 소개한다. 11개의 최근 출시된 VLM에 대한 벤치마크 결과는 안전성 정렬에 상당한 차이가 있음을 보여준다.

시사점, 한계점

시사점:
VLM 자체를 활용한 새로운 탈옥 공격 방법 IDEATOR 제시
IDEATOR의 높은 효율성 및 전이성을 실험적으로 증명
다양한 VLM에 대한 안전성 취약점을 보여주는 VLJailbreakBench 벤치마크 공개
VLM의 안전성 향상을 위한 연구 및 개발의 필요성 강조
한계점:
IDEATOR의 효과는 사용된 VLM과 확산 모델의 성능에 의존적일 수 있음.
VLJailbreakBench는 현재 시점의 VLM을 대상으로 하므로, 향후 VLM의 발전에 따라 그 유효성이 변할 수 있음.
제시된 벤치마크는 특정 VLM에 대한 공격 성공률에 집중되어 있고, 다양한 유형의 유해성에 대한 포괄적인 평가는 부족할 수 있음.
👍