This page organizes papers related to artificial intelligence published around the world. This page is summarized using Google Gemini and is operated on a non-profit basis. The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.
G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning
Created by
Haebom
Category
Empty
저자
Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang
개요
G$^2$VLM은 2D 이미지에서 3D 공간을 재구성하는 시각적 기하학 학습 과정을 통해 시각-언어 모델(VLM)의 공간 지능 부족 문제를 해결하고자 한다. 이 모델은 3D 시각 기하학 특징을 활용하여 3D 속성을 예측하고, 문맥 내 학습 및 혼합적 추론을 통해 공간 추론 작업을 향상시킨다. 풍부한 다중 뷰 이미지 및 비디오 데이터를 학습하며, 3D 시각 사전 지식을 활용한다. 실험 결과, G$^2$VLM은 3D 재구성에서 최첨단 모델과 유사한 결과를 달성하고, 공간 이해 및 추론 작업에서 더 나은 성능을 보인다.