From Illusion to Intention: Visual Rationale Learning for Vision-Language Reasoning
Created by
Haebom
Category
Empty
저자
Changpeng Wang, Haozhe Wang, Xi Chen, Junhan Liu, Taofeng Xue, Chong Peng, Donglian Qi, Fangzhen Lin, Yunfeng Yan
개요
본 논문은 시각-언어 추론 분야에서 이미지와 함께 사고하는 것의 중요성을 강조하며, 기존 모델들이 시각적 행동을 선택적인 도구로 취급하여 시각적 근거가 부족하고, 올바른 추론을 이끌지 못하는 문제를 지적한다. 이를 해결하기 위해 시각적 행동을 핵심 추론 기본 요소로 재구성하는 '시각적 합리화(visual rationalization)' 개념을 제안하고, 이를 기반으로 시각적 합리화를 학습하는 종단간(end-to-end) 패러다임인 Visual Rationale Learning (ViRL)을 제안한다. ViRL은 Process Supervision, Objective Alignment, Fine-Grained Credit Assignment를 통해 각 시각적 행동이 추론 과정에 의미 있게 기여하도록 한다.
시사점, 한계점
•
시사점:
◦
시각적 합리화(visual rationalization)라는 새로운 개념 제시 및 이를 위한 ViRL 프레임워크 제안.
◦
시각적 행동을 핵심 추론 요소로 간주하여, 시각적 근거에 기반한 투명하고 검증 가능한 모델 구축 가능성 제시.
◦
다양한 벤치마크에서 기존 최고 성능 달성.
•
한계점:
◦
논문 자체에서 명시된 한계점은 없으나, end-to-end RL 기반의 학습이므로, 데이터 의존성 및 계산 비용이 높을 수 있음.