G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning
Created by
Haebom
Category
Empty
저자
Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang
개요
Vision-Language Model (VLM)의 공간 지능 부족 문제를 해결하기 위해, 2D 이미지에서 3D 공간을 재구성하는 시각 기하 학습 과정을 도입한 G$^2$VLM 모델을 제시합니다. G$^2$VLM은 3D 시각 기하 특징을 활용하여 3D 속성을 예측하고, 문맥 내 학습 및 혼합 추론을 통해 공간 추론 작업을 향상시킵니다. 이 모델은 대량의 다중 뷰 이미지 및 비디오 데이터로 훈련되며, 3D 시각 사전 정보를 활용하여 공간 이해 능력을 향상시킵니다. 실험 결과는 G$^2$VLM이 3D 재구성 및 공간 이해/추론 작업에서 뛰어난 성능을 보임을 나타냅니다.