Sign In

Zero-Shot Defense Against Toxic Images via Inherent Multimodal Alignment in LVLMs

Created by
  • Haebom
Category
Empty

저자

Wei Zhao, Zhe Li, Yige Li, Jun Sun

개요

본 논문은 대규모 비전-언어 모델(LVLMs)의 유해 시각 입력 취약성 문제를 해결하기 위해 경량화된 방법인 SafeCLIP을 제시합니다. SafeCLIP은 LVLMs의 다중 모드 정렬 기능을 활용하여 제로샷 독성 이미지 탐지를 수행합니다. CLIP의 버려진 CLS 토큰을 텍스트 공간으로 투영하고 독성 기술자와 매칭하여 모델의 구조적 변경 없이 유해 콘텐츠를 탐지합니다. 이는 최소한의 지연 시간으로 추론 및 미세 조정 중에 동적인 안전 수정을 가능하게 합니다. 실험 결과, SafeCLIP은 66.9%의 방어 성공률을 달성하면서 위양성률은 3.2%, 오버헤드는 7.2%에 불과했습니다. 이는 기존 최첨단 방법보다 훨씬 효율적입니다.

시사점, 한계점

시사점:
LVLMs의 고유한 다중 모드 정렬 기능을 활용하여 효율적이고 저비용의 LVLM 안전성을 확보할 수 있음을 보여줍니다.
기존 방법보다 훨씬 높은 방어 성공률과 낮은 위양성률 및 오버헤드를 달성했습니다.
모델의 구조적 변경 없이 동적인 안전 수정을 가능하게 하는 경량화된 방법을 제시합니다.
한계점:
실험 데이터셋과 평가 지표에 대한 자세한 설명이 부족합니다.
다양한 유형의 유해 콘텐츠에 대한 일반화 성능이 추가적인 검증이 필요합니다.
anonymous.4open.science/r/safeclip-2C01 에서 코드 접근성을 제공하지만, 코드의 검증이 필요합니다.
👍