Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Illusion to Intention: Visual Rationale Learning for Vision-Language Reasoning

Created by
  • Haebom
Category
Empty

저자

Changpeng Wang, Haozhe Wang, Xi Chen, Junhan Liu, Taofeng Xue, Chong Peng, Donglian Qi, Fangzhen Lin, Yunfeng Yan

개요

본 논문은 시각-언어 추론 분야에서 이미지와 함께 사고하는 것의 중요성을 강조하며, 기존 모델들이 시각적 행동을 선택적인 도구로 취급하여 시각적 근거가 부족하고, 올바른 추론을 이끌지 못하는 문제를 지적한다. 이를 해결하기 위해 시각적 행동을 핵심 추론 기본 요소로 재구성하는 '시각적 합리화(visual rationalization)' 개념을 제안하고, 이를 기반으로 시각적 합리화를 학습하는 종단간(end-to-end) 패러다임인 Visual Rationale Learning (ViRL)을 제안한다. ViRL은 Process Supervision, Objective Alignment, Fine-Grained Credit Assignment를 통해 각 시각적 행동이 추론 과정에 의미 있게 기여하도록 한다.

시사점, 한계점

시사점:
시각적 합리화(visual rationalization)라는 새로운 개념 제시 및 이를 위한 ViRL 프레임워크 제안.
시각적 행동을 핵심 추론 요소로 간주하여, 시각적 근거에 기반한 투명하고 검증 가능한 모델 구축 가능성 제시.
다양한 벤치마크에서 기존 최고 성능 달성.
한계점:
논문 자체에서 명시된 한계점은 없으나, end-to-end RL 기반의 학습이므로, 데이터 의존성 및 계산 비용이 높을 수 있음.
구체적인 시각적 합리화 과정에 대한 추가적인 설명 및 사례가 필요할 수 있음.
👍