Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning
Created by
Haebom
저자
Binbin Ji, Siddharth Agrawal, Qiance Tang, Yvonne Wu
개요
본 연구는 Chain-of-Thought (CoT) 프롬프팅과 강화학습을 통해 시각-언어 모델(VLMs)의 공간 추론 능력을 조사합니다. 단순한 CoT 형식은 성능 향상에 도움이 되지 않거나 오히려 성능을 저하시키는 반면, 시각 그래프 기반의 다단계 구조화된 프롬프팅(SceneGraph CoT)은 공간 추론 정확도를 크게 향상시킨다는 것을 발견했습니다. Group Relative Policy Optimization (GRPO)을 사용하여 SAT 데이터셋에서 모델을 미세 조정하고 CVBench에서 성능을 평가했습니다. 지도 학습 미세 조정(SFT)과 비교하여 GRPO는 Pass@1 평가에서 더 높은 정확도를 달성하고 분포 외(OOD) 조건에서 우수한 견고성을 보여줍니다. 특히, SFT는 표면적인 언어 패턴에 과적합되어 테스트 시 구문이 변경될 때(예: "closer to"에서 "farther from"으로) 성능이 저하될 수 있는 반면, GRPO는 더 안정적으로 일반화하고 그러한 변화에도 안정적인 성능을 유지합니다. 본 연구 결과는 강화 학습과 구조화된 프롬프팅이 최신 VLMs의 공간 추론 능력과 일반화 성능을 향상시키는 방법에 대한 통찰력을 제공합니다. 모든 코드는 https://github.com/Yvonne511/spatial-vlm-investigator 에서 공개되어 있습니다.