Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

Created by
  • Haebom
Category
Empty

저자

Wenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang

개요

G$^2$VLM은 2D 이미지에서 3D 공간을 재구성하는 시각적 기하학 학습 과정을 통해 시각-언어 모델(VLM)의 공간 지능 부족 문제를 해결하고자 한다. 이 모델은 3D 시각 기하학 특징을 활용하여 3D 속성을 예측하고, 문맥 내 학습 및 혼합적 추론을 통해 공간 추론 작업을 향상시킨다. 풍부한 다중 뷰 이미지 및 비디오 데이터를 학습하며, 3D 시각 사전 지식을 활용한다. 실험 결과, G$^2$VLM은 3D 재구성에서 최첨단 모델과 유사한 결과를 달성하고, 공간 이해 및 추론 작업에서 더 나은 성능을 보인다.

시사점, 한계점

3D 공간 재구성과 공간 이해를 통합하여 VLM의 공간 지능 문제를 해결.
3D 시각 기하학 학습을 통해 공간 추론 능력 향상.
다중 뷰 데이터 학습을 통한 확장성 확보.
3D 장면 편집 등 다양한 미래 응용 가능성 제시.
3D 주석 부족 문제를 해결.
3D 재구성 및 공간 이해/추론 작업에서 SOTA 달성.
👍