Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SIA: Enhancing Safety via Intent Awareness for Vision-Language Models

Created by
  • Haebom

저자

Youngjin Na, Sangheon Jeong, Youngwan Lee, Jian Lee, Dawoon Jeong, Youngman Kim

개요

Vision-Language Model (VLM)의 실제 응용 프로그램 배포가 증가함에 따라, 이전에 간과되었던 안전 위험이 점점 더 분명해지고 있다. 특히, 무해해 보이는 멀티모달 입력이 결합되어 유해한 의도를 드러내어 안전하지 않은 모델 출력을 초래할 수 있다. SIA (Safety via Intent Awareness)는 이러한 잠재적 위험을 해결하기 위해 제안된 훈련이 필요 없는 의도 인식 안전 프레임워크로, 멀티모달 입력에서 유해한 의도를 사전에 감지하고 이를 사용하여 안전한 응답 생성을 유도한다. SIA는 시각적 추상화 (캡셔닝), 소수 샷 사고 연쇄 (CoT) 프롬프팅을 통한 의도 추론, 의도 기반 응답 생성의 세 단계를 따른다. 이미지-텍스트 쌍에서 추론된 암묵적인 의도에 동적으로 적응함으로써, SIA는 광범위한 재훈련 없이 유해한 출력을 완화한다. SIUO, MM-SafetyBench, HoliSafe와 같은 안전 벤치마크에 대한 광범위한 실험 결과, SIA는 안전성을 일관되게 향상시키고 기존의 훈련이 필요 없는 방법보다 우수한 성능을 보였다.

시사점, 한계점

훈련이 필요 없는 안전 프레임워크 제안: 광범위한 재훈련 없이 안전성 향상.
의도 인식 접근 방식: 멀티모달 입력의 잠재적 위험을 효과적으로 감지.
실험 결과: 다양한 안전 벤치마크에서 기존 방법보다 우수한 성능.
한계점: 명시적으로 언급되지 않음 (논문 요약 내에서).
👍