Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VLSBench: Unveiling Visual Leakage in Multimodal Safety

Created by
  • Haebom

저자

Xuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 안전성 평가에 있어 기존 벤치마크의 문제점을 지적하고, 이를 해결하기 위한 새로운 벤치마크인 VLSBench를 제시합니다. 기존 연구는 텍스트 기반 언어 모델 조정이 이미지-텍스트 쌍을 이용한 조정과 비슷한 안전 성능을 보이는 역설적인 현상을 보였는데, 이는 기존 벤치마크에서 이미지의 위험한 내용이 텍스트 질의에 유출되어(VSIL), MLLM이 텍스트만으로도 위험한 이미지-텍스트 쌍을 쉽게 거부하기 때문임을 밝힙니다. 연구진은 자동화된 데이터 파이프라인을 통해 이미지-텍스트 쌍 2.2k개로 구성된 VLSBench를 구축하여, LLaVA, Qwen2-VL, GPT-4o 등 다양한 MLLM에 대한 안전성 평가를 수행하고, 텍스트 기반 조정과 다중 모달 조정 방법을 비교 분석합니다. VSIL 존재 여부에 따라 텍스트 기반 조정 또는 다중 모달 조정 방법의 효과가 달라짐을 실험적으로 확인합니다. 코드와 데이터는 공개되었습니다.

시사점, 한계점

시사점:
기존 다중 모달 안전성 벤치마크의 VSIL 문제점을 밝히고, 이를 해결하기 위한 새로운 벤치마크 VLSBench를 제시.
VSIL이 존재하는 경우 텍스트 기반 조정만으로도 충분한 안전성을 확보할 수 있음을 실험적으로 증명.
VSIL이 없는 경우에는 다중 모달 조정이 더 효과적임을 보여줌.
다양한 MLLM의 안전성 평가를 위한 새로운 기준을 제시.
공개된 코드와 데이터를 통해 MLLM 안전성 연구의 발전에 기여.
한계점:
VLSBench의 데이터 크기가 2.2k로 상대적으로 작을 수 있음. 더 많은 데이터를 포함한 확장이 필요할 수 있음.
VSIL 문제를 완전히 해결했다고 단정하기 어려움. 새로운 유형의 정보 유출 가능성 존재.
특정 유형의 MLLM에 대한 평가 결과이므로, 다른 모델이나 응용 분야에 대한 일반화 가능성에 대한 추가 연구 필요.
👍