Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs

Created by
  • Haebom

저자

Wenxuan Wang, Xiaoyuan Liu, Kuiyi Gao, Jen-tse Huang, Youliang Yuan, Pinjia He, Shuai Wang, Zhaopeng Tu

개요

본 논문은 텍스트와 이미지를 모두 처리하는 다중 모달 대규모 언어 모델(MLLM)의 안전성 평가를 위한 새로운 벤치마크, MMSafeAware를 제시합니다. MMSafeAware는 29가지 안전성 시나리오와 1500개의 이미지-프롬프트 쌍으로 구성되어 있으며, 안전하지 않은 콘텐츠와 과도한 안전성(over-safety)을 모두 고려하여 모델의 안전 인식 능력을 평가합니다. 9개의 널리 사용되는 MLLM을 MMSafeAware로 평가한 결과, 기존 모델들은 안전성이 충분하지 않고 과민 반응을 보이는 경향이 있음을 밝혔습니다 (예: GPT-4V는 안전하지 않은 입력의 36.1%를 안전한 것으로, 안전한 입력의 59.9%를 안전하지 않은 것으로 잘못 분류). 프롬프트 기반 접근 방식, 시각적 대조 디코딩, 시각 중심 추론 미세 조정 등 세 가지 안전성 향상 방법을 탐색했지만, 만족할 만한 성능을 달성하지 못했습니다. 결론적으로, 강력한 안전 인식 능력을 갖춘 MLLM 개발에는 상당한 어려움이 있음을 강조하며, 향후 연구의 필요성을 제기합니다. 모든 코드와 데이터는 공개적으로 제공될 예정입니다.

시사점, 한계점

시사점:
다중 모달 대규모 언어 모델의 안전성 평가를 위한 종합적인 벤치마크 MMSafeAware 제시.
현재 MLLM의 안전성 및 과민성 문제를 실증적으로 밝힘.
안전성 향상을 위한 다양한 방법론의 효과성 한계 제시.
향후 MLLM 안전성 연구를 위한 공개 데이터 및 코드 제공.
한계점:
제시된 안전성 향상 방법들의 성능이 미흡함.
MMSafeAware 벤치마크가 모든 안전성 문제를 포괄하지 못할 가능성.
평가에 사용된 MLLM의 종류 및 버전에 따라 결과가 달라질 수 있음.
👍