Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model

Created by
  • Haebom

저자

Youngwan Lee, Kangsan Kim, Kwanyong Park, Ilcahe Jung, Soojin Jang, Seanie Lee, Yong-Ju Lee, Sung Ju Hwang

개요

본 논문은 시각-언어 모델(VLMs)의 안전성 향상을 위한 기존 접근 방식의 두 가지 주요 단점, 즉 1) 기존 안전 조정 데이터셋 및 벤치마크가 이미지-텍스트 상호작용으로 인한 유해 콘텐츠를 부분적으로만 고려하고, 겉보기에는 무해한 쌍에서 상황에 따른 안전하지 않은 결과를 종종 간과한다는 점과 2) 이전 방법이 주로 데이터 중심 조정에 의존하고, 안전성을 본질적으로 강화하기 위한 아키텍처 혁신이 제한적이라는 점을 다룹니다. 이를 해결하기 위해, 본 논문에서는 다섯 가지 안전/불안전 이미지-텍스트 조합을 모두 포함하는 포괄적인 안전 데이터셋 및 벤치마크인 HoliSafe를 제시하고, 학습 가능한 안전 메타 토큰과 전용 안전 헤드를 추가한 새로운 VLM인 SafeLLaVA를 제안합니다. 메타 토큰은 훈련 중 유해한 시각적 단서를 인코딩하여 언어 모델을 더 안전한 응답으로 유도하고, 안전 헤드는 거부 이유와 일치하는 해석 가능한 유해성 분류를 제공합니다. 실험 결과, HoliSafe로 훈련된 SafeLLaVA는 여러 VLM 벤치마크에서 최첨단 안전 성능을 달성하며, HoliSafe 벤치마크 자체는 기존 모델의 중요한 취약성을 드러냅니다.

시사점, 한계점

시사점:
HoliSafe는 기존 VLM의 안전성 평가에 대한 한계를 보여주는 포괄적인 안전 데이터셋 및 벤치마크를 제공합니다.
SafeLLaVA는 메타 토큰과 안전 헤드를 활용하여 VLM의 안전성을 향상시키는 새로운 아키텍처를 제시합니다.
SafeLLaVA는 여러 VLM 벤치마크에서 최첨단 안전 성능을 달성했습니다.
본 연구는 VLM의 견고하고 해석 가능한 안전성에 대한 추가 연구를 촉진할 것으로 기대됩니다.
한계점:
HoliSafe가 모든 유형의 유해 콘텐츠를 포괄하는지에 대한 추가 연구가 필요합니다.
SafeLLaVA의 안전성 향상 효과가 다양한 VLM 아키텍처와 데이터셋에 일반화되는지에 대한 추가 연구가 필요합니다.
안전 헤드의 해석 가능성에 대한 추가 분석이 필요합니다.
👍