More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models
Created by
Haebom
저자
Xinyu Tian, Shu Zou, Zhaoyuan Yang, Mengqi He, Fabian Waschkowski, Lukas Wesemann, Peter Tu, Jing Zhang
개요
본 논문은 대규모 언어 모델(LLM)의 추론 능력을 시각-언어 모델(VLM)로 확장하는 연구에 대해 다룬다. 특히, 추론 과정이 시각적 인식 능력을 저하시키는 '시각적 망각' 현상을 발견하고, 이를 해결하기 위해 '시각 기반 정책 최적화(VAPO)'를 제안한다. VAPO는 추론 과정을 시각적 정보에 더 의존하도록 유도하여, 다양한 벤치마크에서 새로운 최고 성능을 달성했다.
시사점, 한계점
•
시사점:
◦
VLM의 추론 능력 향상과 함께 시각적 인식 능력 저하 문제를 제기하고, 이를 해결하는 새로운 방법론 제시.