Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning

Created by
  • Haebom

저자

Yue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi

개요

본 논문은 대규모 시각 언어 모델(VLMs)의 안전성을 향상시키기 위해 새로운 추론 기반 VLM 보호 모델인 GuardReasoner-VL을 제시합니다. 핵심 아이디어는 온라인 강화 학습(RL)을 통해 보호 모델이 조정 결정을 내리기 전에 신중하게 추론하도록 유도하는 것입니다. 12만 3천 개의 샘플과 63만 1천 개의 추론 단계를 포함하는 텍스트, 이미지, 텍스트-이미지 입력을 다루는 추론 말뭉치 GuardReasoner-VLTrain을 구성하고, 이를 기반으로 SFT를 통해 모델의 추론 능력을 초기화합니다. 또한, 온라인 RL을 통해 조정에 대한 추론을 향상시킵니다. 다양성과 샘플의 난이도를 높이기 위해 제안된 안전 인식 데이터 연결을 통한 거절 샘플링과 데이터 증강을 수행하며, 초기에는 탐색을, 후기에는 활용을 장려하는 동적 클리핑 매개변수를 사용합니다. 성능과 토큰 효율성의 균형을 맞추기 위해 정확성, 형식, 토큰 비용을 통합하는 길이 인식 안전 보상을 설계합니다. 광범위한 실험을 통해 제안 모델의 우수성을 입증하며, 평균 F1 점수에서 2위 모델보다 19.27% 앞서는 성능을 보입니다. 데이터, 코드 및 모델(3B/7B)을 공개합니다.

시사점, 한계점

시사점:
온라인 강화학습을 활용한 추론 기반 VLM 보호 모델의 효과적인 설계 및 구현을 제시.
다양한 데이터 증강 기법과 길이 인식 안전 보상을 통해 성능 향상 및 토큰 효율성 확보.
기존 모델 대비 괄목할 만한 성능 향상(F1 score 19.27% 증가)을 달성.
데이터, 코드 및 모델 공개를 통한 연구 재현성 및 확장성 제공.
한계점:
GuardReasoner-VLTrain 말뭉치의 규모 및 다양성에 대한 추가적인 검토 필요.
온라인 강화학습의 안정성 및 수렴 속도에 대한 추가적인 분석 필요.
특정 유형의 안전 위협에 대한 취약성 존재 가능성.
실제 환경 적용 시 발생할 수 있는 예상치 못한 문제점에 대한 고려 부족.
👍