Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SpaceMind: Camera-Guided Modality Fusion for Spatial Reasoning in Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Ruosen Zhao, Zhikang Zhang, Jialei Xu, Jiahao Chang, Dong Chen, Lingyun Li, Weijian Sun, Zizhuang Wei

개요

SpaceMind는 RGB 입력만으로 3D 공간 추론 능력을 갖춘 멀티모달 대규모 언어 모델(VLM)입니다. VGGT를 공간 이해 인코더로, InternViT를 2D 시각 인코더로 사용하며, 카메라 표현을 수동적인 메타데이터가 아닌 능동적인 가이드 모달리티로 취급합니다. SpaceMind는 Camera-Guided Modality Fusion 모듈을 통해 카메라 컨디셔닝 바이어스를 적용하고, 기하학적 중요성을 반영하는 가중치를 할당하며, 카메라 임베딩을 사용하여 퓨전된 표현을 게이팅합니다.

시사점, 한계점

VSI-Bench, SQA3D 및 SPBench에서 새로운 SOTA 달성
RGB 입력만을 사용하여 3D 공간 추론 문제를 해결
카메라 정보를 활용한 효과적인 모달리티 퓨전 방식 제시
코드와 모델 체크포인트 공개 예정
논문 내 한계점은 명시되지 않음.
👍