Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

Created by
  • Haebom

저자

Dingming Li, Hongxing Li, Zixuan Wang, Yuchen Yan, Hang Zhang, Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang

개요

본 논문은 시각-언어 모델(VLMs)의 공간 추론 능력, 특히 다양한 관점에서의 공간 이해 능력에 대한 한계를 다룹니다. 기존 VLMs는 카메라 관점(자기중심적)의 공간 추론에는 능숙하지만, 다른 객체의 관점(타자중심적)을 고려해야 하는 경우에는 성능이 저하됨을 지적합니다. 이를 해결하기 위해 다양한 유형의 다중 관점 공간 국재 및 인식 평가를 위한 종합적인 벤치마크인 ViewSpatial-Bench를 제시합니다. 자동화된 3D 주석 파이프라인을 통해 정확한 방향 레이블을 생성하며, 다양한 VLMs에 대한 평가를 통해 관점 변화에 따른 성능 차이를 보여줍니다. ViewSpatial-Bench를 이용한 VLMs의 미세 조정을 통해 전반적인 성능을 46.24% 향상시켰으며, 이를 통해 3D 공간 관계 모델링이 VLMs의 공간 이해 능력 향상에 효과적임을 실험적으로 증명합니다.

시사점, 한계점

시사점:
다중 관점 공간 추론을 위한 새로운 벤치마크 ViewSpatial-Bench 제시
VLMs의 공간 추론 능력에 대한 관점의 중요성을 강조
3D 공간 관계 모델링을 통한 VLMs 성능 향상 가능성 제시
자율주행, 로봇 등 임베디드 AI 시스템의 공간 지능 향상에 기여
한계점:
ViewSpatial-Bench가 아직 초기 단계의 벤치마크이므로, 더욱 다양한 유형의 공간 추론 과제와 데이터 확장 필요
현재 벤치마크는 특정 유형의 공간 추론에 집중되어 있어, 일반적인 공간 추론 능력 평가에는 한계가 있을 수 있음
미세 조정을 통해 성능 향상을 보였지만, VLMs의 근본적인 공간 이해 능력 향상에 대한 추가적인 연구 필요
👍