Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TAIJI: Textual Anchoring for Immunizing Jailbreak Images in Vision Language Models

Created by
  • Haebom
Category
Empty

저자

Xiangyu Yin, Yi Qi, Jinwei Hu, Zhen Chen, Yi Dong, Xingyu Zhao, Xiaowei Huang, Wenjie Ruan

개요

본 논문은 비전 언어 모델(VLMs)의 탈옥 공격 취약성을 해결하기 위한 새로운 블랙박스 방어 프레임워크인 TAIJI를 제안합니다. TAIJI는 키워드 기반의 텍스트 고정을 활용하여 시각 및 텍스트 프롬프트에 포함된 유해 콘텐츠를 평가하고 완화하는 모델의 능력을 향상시킵니다. 기존의 화이트박스 방어 방식과 달리, 모델 매개변수에 대한 접근 없이 추론 중 단일 쿼리로 효과적으로 작동하며, 무해한 작업에 대한 VLM의 성능을 유지합니다. 실험 결과, TAIJI는 VLMs의 안전성과 신뢰성을 크게 향상시켜 실제 배포에 적합한 실용적이고 효율적인 솔루션임을 보여줍니다.

시사점, 한계점

시사점:
기존의 화이트박스 방어 방식의 한계를 극복하는 실용적인 블랙박스 방어 프레임워크 제시
단일 쿼리로 효율적인 탈옥 공격 방어 가능
무해한 작업에 대한 VLM 성능 저하 없이 안전성 및 신뢰성 향상
실제 환경 배포에 적합한 효율적인 솔루션 제공
한계점:
본 논문에서 제시된 TAIJI의 일반화 성능 및 다양한 탈옥 공격 유형에 대한 로버스트니스에 대한 추가 연구 필요
특정 키워드에 대한 의존성으로 인한 새로운 탈옥 공격 전략에 대한 취약성 존재 가능성
다양한 VLM 아키텍처 및 데이터셋에 대한 TAIJI의 성능 평가가 추가적으로 필요
👍