Probing the effectiveness of World Models for Spatial Reasoning through Test-time Scaling

Created by

Haebom

저자

Saurav Jha, M. Jehanzeb Mirza, Wei Lin, Shiqi Yang, Sarath Chandar

💡 개요

본 논문은 시각-언어 모델(VLM)의 공간 추론 능력 향상을 위해 테스트 시간 확장을 활용하는 접근 방식을 분석합니다. 특히, MindJourney와 같은 세계 모델 기반의 테스트 시간 검증기의 동작을 체계적으로 조사하며, 불확실성 분석을 통해 검증기의 보상 신호가 편향되어 있고 신뢰성이 낮다는 것을 밝혀냈습니다. 이에 대한 해결책으로, 검증 가능한 프레임 기반의 미세한 주장에 기반한 "공간적 단언을 통한 검증(ViSA)" 프레임워크를 제안하여 공간 추론 능력을 개선했습니다.

🔑 시사점 및 한계

•

MindJourney의 검증기는 보상 신호의 신뢰성이 낮고, 무작위 점수 매기기조차 성능 향상에 기여할 수 있다는 점을 통해 검증기의 편향성을 드러냈습니다.

•

ViSA 프레임워크는 SAT-Real 벤치마크에서 공간 추론 능력을 향상시키고 탐색적 행동의 균형을 맞추는 데 성공했습니다.

•

MMSI-Bench와 같은 고난이도 벤치마크에서는 현재 세계 모델이 정보 병목 현상을 겪어, 상상된 뷰가 세밀한 추론을 풍부하게 하는 데 실패하는 한계점을 보였습니다.

PDF 보기

Made with Slashpage