Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GuardTrace-VL: Detecting Unsafe Multimodel Reasoning via Iterative Safety Supervision

Created by
  • Haebom
Category
Empty

저자

Yuxiao Xiang, Junchi Chen, Zhenchao Jin, Changtao Miao, Haojie Yuan, Qi Chu, Tao Gong, Nenghai Yu

개요

본 논문은 시각-언어 작업을 위한 멀티모달 대규모 추론 모델(MLRM)의 안전성 문제를 다룹니다. 특히, 중간 추론 과정에서 발생할 수 있는 유해 콘텐츠를 감지하기 위해, 질문-사고-답변(QTA) 파이프라인 전체를 분석하는 시각 인식 안전 감사자 GuardTrace-VL을 제안합니다. 이를 위해, 다양한 프롬프트 전략과 MLRM 및 인간 기반 투표 및 검증 파이프라인을 통해 생성된 GuardTrace 데이터셋을 구축하고, 3단계 점진적 훈련 방식을 통해 위험 수준에 따른 안전 선호도를 학습합니다. GuardTrace-VL 모델은 안전하지 않은 추론 감지 작업에서 93.1%의 F1 점수를 달성하여 기존 방법 대비 13.5% 향상을 보였습니다.

시사점, 한계점

시사점:
중간 추론 단계에서 유해 콘텐츠를 탐지하는 새로운 시각 인식 안전 감사자 GuardTrace-VL 제안
안전성 평가를 위한 GuardTrace 데이터셋 구축
위험 수준에 따른 안전 선호도 학습을 위한 3단계 점진적 훈련 방식 제안
기존 방법 대비 향상된 성능 (F1 93.1%)
한계점:
구체적인 한계점은 논문 내용에서 직접적으로 언급되지 않음 (추후 연구에서 보완될 수 있음)
👍