Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
Created by
Haebom
Category
Empty
저자
Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen
개요
본 논문은 멀티모달 대규모 언어 모델(MLLM)의 공간 지능 문제를 해결하기 위해 유클리드 기하 문제 해결을 대리 과제로 삼아 연구를 진행했다. 약 3만 개의 평면 및 입체 기하 문제로 구성된 멀티모달 데이터셋인 Euclid30K를 구축하고, Qwen2.5VL, Qwen3VL, RoboBrain2.0 계열의 7개 모델을 Group Relative Policy Optimization (GRPO)를 사용하여 미세 조정했다. 그 결과, 공간 추론 벤치마크에서 상당한 제로샷 성능 향상을 보였다.
시사점, 한계점
•
시사점:
◦
기하학 중심의 미세 조정이 비전-언어 모델에 광범위하게 이전 가능한 공간 기술을 부여할 수 있음을 처음으로 체계적으로 보여줌.
◦
Euclid30K 데이터셋 구축을 통해 공간 지능 연구에 기여.
◦
4개의 공간 추론 벤치마크(Super-CLEVR, Omni3DBench, VSI-Bench, MindCube)에서 제로샷 성능 향상을 달성.