Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

Created by
  • Haebom
Category
Empty

저자

Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen

개요

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 공간 지능 문제를 해결하기 위해 유클리드 기하 문제 해결을 대리 과제로 삼아 연구를 진행했다. 약 3만 개의 평면 및 입체 기하 문제로 구성된 멀티모달 데이터셋인 Euclid30K를 구축하고, Qwen2.5VL, Qwen3VL, RoboBrain2.0 계열의 7개 모델을 Group Relative Policy Optimization (GRPO)를 사용하여 미세 조정했다. 그 결과, 공간 추론 벤치마크에서 상당한 제로샷 성능 향상을 보였다.

시사점, 한계점

시사점:
기하학 중심의 미세 조정이 비전-언어 모델에 광범위하게 이전 가능한 공간 기술을 부여할 수 있음을 처음으로 체계적으로 보여줌.
Euclid30K 데이터셋 구축을 통해 공간 지능 연구에 기여.
4개의 공간 추론 벤치마크(Super-CLEVR, Omni3DBench, VSI-Bench, MindCube)에서 제로샷 성능 향상을 달성.
한계점:
구체적인 한계점은 논문 요약 내용에 포함되어 있지 않음. (논문 원본 확인 필요)
👍