Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

Created by
  • Haebom

저자

Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen

개요

본 논문은 시각적 형태 변환, 객체 회전, 관계 위치 판단, 수치 추정 등 다양한 능력을 포함하는 공간 지능(spatial intelligence)을 멀티모달 대규모 언어 모델(MLLMs)에서 해결하기 위해, 유클리드 기하 문제 해결을 대리 과제로 삼아 연구를 진행했다. 약 3만 개의 평면 및 입체 기하 문제로 구성된 멀티모달 데이터셋 Euclid30K를 구축하고, Group Relative Policy Optimization (GRPO)을 사용하여 Qwen2.5VL 및 RoboBrain2.0 모델을 미세 조정했다. 결과적으로, 모델들은 Euclid30K 학습 후, 별도의 작업별 적응 없이 네 개의 공간 추론 벤치마크(Super-CLEVR, Omni3DBench, VSI-Bench, MindCube)에서 제로샷 성능 향상을 보였다. 특히, VSI-Bench에서 모든 모델의 평균 정확도가 34.5%에서 40.5%로 5.5%p 증가했으며, RoboBrain2.0-Euclid-7B 모델은 49.6%의 정확도를 기록하여 기존 최고 성능 모델 Spatial-MLLM을 능가했다. 본 연구는 기하학 중심의 미세 조정이 비전-언어 모델에 광범위하게 전이 가능한 공간 기술을 부여할 수 있음을 최초로 체계적으로 보여준다.

시사점, 한계점

시사점:
기하학 문제를 활용한 미세 조정으로 MLLMs의 공간 추론 능력 향상
Euclid30K 데이터셋 및 GRPO 방법론의 효과 입증
다양한 공간 추론 벤치마크에서 제로샷 성능 향상
기존 최고 성능 모델을 능가하는 성과 달성
공간 지능 연구에 대한 새로운 접근 방식 제시
한계점:
Euclid30K 데이터셋 및 모델 학습에 사용된 자원 관련 정보 부족
모델의 일반화 능력에 대한 추가적인 검증 필요
다른 공간 추론 관련 task에 대한 적용 가능성 및 성능 검증 필요
모델의 추론 과정에 대한 심층적인 분석 부재
👍