Understanding Space Is Rocket Science -- Only Top Reasoning Models Can Solve Spatial Understanding Tasks
Created by
Haebom
저자
Nils Hoehing, Mayug Maniparambil, Ellen Rushe, Noel E. O'Connor, Anthony Ventresque
개요
RocketScience는 공개 소스 기반의 대조적 VLM 벤치마크로, 공간 관계 이해 능력을 평가하기 위해 설계되었습니다. 실세계의 새로운 이미지-텍스트 쌍으로 구성되며, 주로 상대적 공간 이해와 객체의 순서에 초점을 맞춥니다. 인간에게는 쉽지만, 현재의 VLM 모델에는 어려운 과제로 설계되었으며, 실험적으로 검증되었습니다. 결과는 오픈소스 및 최첨단 상용 VLM에서 공간 관계 이해 능력의 부족을 보여주고, 추론 모델의 놀라울 정도로 높은 성능을 보여줍니다. 또한, 사고연쇄 기반 모델에서 객체 위치 파악과 공간 추론의 기여도를 분리하는 분석을 수행하여, 벤치마크 성능이 객체 위치 파악 능력이 아닌 공간 추론에 의해 제한됨을 발견했습니다. 데이터셋은 CC-BY-4.0 라이선스로 공개되며, 평가 코드는 https://github.com/nilshoehing/rocketscience 에서 이용 가능합니다.