본 논문은 시각-언어 작업을 위한 멀티모달 대규모 추론 모델(MLRM)의 안전성 문제를 다룹니다. 특히, 중간 추론 과정에서 발생할 수 있는 유해 콘텐츠를 감지하기 위해, 질문-사고-답변(QTA) 파이프라인 전체를 분석하는 시각 인식 안전 감사자 GuardTrace-VL을 제안합니다. 이를 위해, 다양한 프롬프트 전략과 MLRM 및 인간 기반 투표 및 검증 파이프라인을 통해 생성된 GuardTrace 데이터셋을 구축하고, 3단계 점진적 훈련 방식을 통해 위험 수준에 따른 안전 선호도를 학습합니다. GuardTrace-VL 모델은 안전하지 않은 추론 감지 작업에서 93.1%의 F1 점수를 달성하여 기존 방법 대비 13.5% 향상을 보였습니다.
시사점, 한계점
•
시사점:
◦
중간 추론 단계에서 유해 콘텐츠를 탐지하는 새로운 시각 인식 안전 감사자 GuardTrace-VL 제안
◦
안전성 평가를 위한 GuardTrace 데이터셋 구축
◦
위험 수준에 따른 안전 선호도 학습을 위한 3단계 점진적 훈련 방식 제안
◦
기존 방법 대비 향상된 성능 (F1 93.1%)
•
한계점:
◦
구체적인 한계점은 논문 내용에서 직접적으로 언급되지 않음 (추후 연구에서 보완될 수 있음)