MindJourney: Test-Time Scaling with World Models for Spatial Reasoning
Created by
Haebom
Category
Empty
저자
Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan
개요
본 논문은 3D 공간 추론 능력이 부족한 기존 시각-언어 모델(VLM)의 한계를 극복하기 위해, 비디오 확산 기반의 제어 가능한 세계 모델을 VLM에 결합하는 'MindJourney'라는 테스트 시간 스케일링 프레임워크를 제안한다. MindJourney는 VLM이 간결한 카메라 궤적을 반복적으로 스케치하고, 세계 모델이 각 단계에서 해당 뷰를 합성하도록 한다. VLM은 이렇게 생성된 다중 뷰 증거를 기반으로 추론을 수행한다.
시사점, 한계점
•
시사점:
◦
MindJourney는 사전 학습된 VLM에 세계 모델을 연결하여 3D 추론 능력을 향상시키는 간단하고 플러그 앤 플레이 방식의 해결책을 제시한다.
◦
대표적인 공간 추론 벤치마크인 SAT에서 평균 7.7%의 성능 향상을 달성했다.
◦
강화 학습을 통해 훈련된 VLM보다 성능이 향상되어, 테스트 시간 스케일링을 위한 세계 모델 활용의 잠재력을 보여준다.