Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation
Created by
Haebom
Category
Empty
저자
Zeqi Xiao, Yiwei Zhao, Lingxiao Li, Yushi Lan, Yu Ning, Rahul Garg, Roshni Cooper, Mohammad H. Taghavi, Xingang Pan
개요
본 논문은 비디오 생성 모델이 시각 데이터만 사용하여 인간 인지의 핵심 능력인 시공간 지능을 나타낼 수 있는지 연구한다. 이를 위해, 비디오 기반 장면 컨텍스트에만 조건이 부여된 비디오 확산 모델이 복잡한 공간 작업을 수행할 수 있음을 보여주는 Video4Spatial 프레임워크를 제시한다. 장면 탐색(3D 장면 기하학과 일치하면서 카메라 자세 지침을 따름)과 객체 감지(의미론적 위치 파악, 지침 준수 및 계획 필요)의 두 가지 작업에 대해 검증을 수행한다.
시사점, 한계점
•
시사점:
◦
비디오 생성 모델이 깊이 또는 자세와 같은 보조 모달리티 없이 비디오 컨텍스트만으로 강력한 공간 이해력을 보인다.
◦
Video4Spatial은 엔드 투 엔드로 탐색을 계획하고, 대상 객체를 감지하며, 공간적 일관성을 유지하면서 카메라 자세 지침을 따른다.