ViSRA: A Video-based Spatial Reasoning Agent for Multi-modal Large Language Models

작성자

Haebom

카테고리

Empty

저자

Tingshu Mou, Jiabo He, Renying Wang, Ce Liu, Hao Yang, Tiehua Zhang, Jingjing Chen, Xingjun Ma

💡 개요

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 3D 공간 추론 능력을 탐색하기 위한 새로운 프레임워크인 ViSRA를 제안합니다. ViSRA는 별도의 학습 과정 없이 전문가 모델로부터 추출된 명시적인 공간 정보를 활용하여 MLLM의 공간 추론 메커니즘을 모듈식으로 작동시킵니다. 이를 통해 훈련 없이도 MLLM의 3D 공간 이해 능력을 향상시키고 다양한 3D 공간 추론 작업에서 우수한 성능을 보여줍니다.

🔑 시사점 및 한계

•

훈련 없이 MLLM의 3D 공간 추론 능력을 향상시키는 새로운 접근 방식 제시

•

인간과 유사하며 다양한 작업에 전이 가능한 3D 공간 이해 능력 확보

•

기존 벤치마크 및 미지의 3D 공간 추론 작업 모두에서 성능 향상 확인

•

ViSRA 자체의 공간 정보 추출 모델 성능 및 효율성 개선의 여지

PDF 보기

Made with Slashpage