Sign In

UrbanVideo-Bench: Benchmarking Vision-Language Models on Embodied Intelligence with Video Data in Urban Spaces

Created by
  • Haebom
Category
Empty

저자

Baining Zhao, Jianjie Fang, Zichao Dai, Ziyou Wang, Jirong Zha, Weichen Zhang, Chen Gao, Yue Wang, Jinqiang Cui, Xinlei Chen, Yong Li

개요

본 논문은 개방형 도시 3D 공간에서의 움직임 중에 구현된 인지 능력을 평가하기 위한 벤치마크를 제시합니다. 비디오-대규모 언어 모델(Video-LLMs)이 인간처럼 연속적인 1인칭 시각 관찰을 자연스럽게 처리하여 기억, 인지, 추론 및 탐색을 가능하게 하는지 평가하기 위해, 실제 도시와 시뮬레이션 환경에서 드론을 수동으로 조종하여 1.5k개의 3D 구현 동작 비디오 데이터를 수집하고, 이를 바탕으로 5.2k개의 객관식 질문을 생성했습니다. 17개의 널리 사용되는 Video-LLMs를 평가한 결과, 도시 구현 인지 능력의 현재 한계를 드러냈으며, 상관 분석을 통해 다양한 작업 간의 관계를 파악하여 인과 추론이 기억, 인지, 탐색과 강한 상관관계를 가지는 반면, 반실제 및 연관 추론 능력은 다른 작업과의 상관관계가 낮다는 것을 보여줍니다. 또한 미세 조정을 통한 도시 구현에서 Sim-to-Real 전이 가능성을 검증했습니다.

시사점, 한계점

시사점:
실제 도시 환경에서 Video-LLMs의 구현된 인지 능력을 평가하기 위한 새로운 벤치마크 제시.
Video-LLMs의 도시 구현 인지 능력의 현재 한계를 밝힘.
다양한 인지 능력 간의 상관관계 분석을 통해 향후 연구 방향 제시 (인과 추론의 중요성 강조).
Sim-to-Real 전이 가능성 검증.
한계점:
벤치마크에 사용된 데이터의 규모 (1.5k 비디오 클립, 5.2k 질문)가 충분하지 않을 수 있음.
실제 도시 환경 데이터 수집의 어려움과 한계.
평가에 사용된 Video-LLMs의 종류와 버전에 따라 결과가 달라질 수 있음.
Sim-to-Real 전이의 일반화 가능성에 대한 추가 연구 필요.
👍