[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Enhancing Spatial Reasoning in Vision-Language Models via Chain-of-Thought Prompting and Reinforcement Learning

Created by
  • Haebom

저자

Binbin Ji, Siddharth Agrawal, Qiance Tang, Yvonne Wu

개요

본 연구는 Chain-of-Thought (CoT) 프롬프팅과 강화학습을 통해 시각-언어 모델(VLMs)의 공간 추론 능력을 조사합니다. 단순한 CoT 형식은 성능 향상에 도움이 되지 않거나 오히려 성능을 저하시키는 반면, 시각 그래프 기반의 다단계 구조화된 프롬프팅(SceneGraph CoT)은 공간 추론 정확도를 크게 향상시킨다는 것을 발견했습니다. Group Relative Policy Optimization (GRPO)을 사용하여 SAT 데이터셋에서 모델을 미세 조정하고 CVBench에서 성능을 평가했습니다. 지도 학습 미세 조정(SFT)과 비교하여 GRPO는 Pass@1 평가에서 더 높은 정확도를 달성하고 분포 외(OOD) 조건에서 우수한 견고성을 보여줍니다. 특히, SFT는 표면적인 언어 패턴에 과적합되어 테스트 시 구문이 변경될 때(예: "closer to"에서 "farther from"으로) 성능이 저하될 수 있는 반면, GRPO는 더 안정적으로 일반화하고 그러한 변화에도 안정적인 성능을 유지합니다. 본 연구 결과는 강화 학습과 구조화된 프롬프팅이 최신 VLMs의 공간 추론 능력과 일반화 성능을 향상시키는 방법에 대한 통찰력을 제공합니다. 모든 코드는 https://github.com/Yvonne511/spatial-vlm-investigator 에서 공개되어 있습니다.

시사점, 한계점

시사점:
SceneGraph CoT 프롬프팅이 VLMs의 공간 추론 성능을 향상시킨다는 것을 밝힘.
GRPO 기반 강화학습을 통해 SFT보다 높은 정확도와 OOD 견고성을 달성.
SFT의 과적합 문제와 GRPO의 우수한 일반화 능력을 제시.
VLMs의 공간 추론 능력 향상을 위한 새로운 방법론 제시.
한계점:
연구에 사용된 데이터셋과 모델의 일반화 가능성에 대한 추가 연구 필요.
다른 유형의 공간 추론 문제에 대한 GRPO의 성능 평가 필요.
GRPO의 계산 비용 및 효율성에 대한 추가적인 분석 필요.
👍