# Spatial457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models

### 저자

Xingrui Wang, Wufei Ma, Tiezheng Zhang, Celso M de Melo, Jieneng Chen, Alan Yuille

## 개요

대규모 멀티모달 모델(LMM)의 3차원 공간 추론 능력에 대한 불확실성을 해결하기 위해, 6D 공간 추론을 종합적으로 평가하는 데 초점을 맞춘 새로운 데이터셋 Spatial457을 제시합니다. 이 데이터셋은 multi-object recognition, 2D location, 3D location, 3D orientation의 4가지 주요 공간 추론 능력을 평가하며, 난이도가 다른 7가지 질문 유형과 5가지 레벨을 포함하는 계층적 평가 구조를 활용합니다. 여러 LMM을 Spatial457에서 평가한 결과, 태스크 복잡성이 증가함에 따라 성능이 저하되었으며, 특히 3D 추론 및 6D 공간 태스크에서 어려움을 보였습니다. Relative Performance Dropping Rate (RPDR)를 도입하여 3D 추론 능력의 약점을 정량화하고, 속성별 예측 편향을 발견했습니다.

## 시사점, 한계점

- **시사점:**

    - 6D 공간 추론을 위한 새로운 평가 데이터셋 및 평가 구조 제시.

    - LMM의 3D 추론 능력의 약점을 정량적으로 평가하는 방법론 개발.

    - LMM의 예측 편향을 분석하고, 실제 이미지 설정에서도 유사한 패턴을 확인.

    - 공간 추론 능력 향상을 위한 LMM 연구의 방향 제시.

- **한계점:**

    - synthetic 데이터셋에만 국한되어, 실제 환경에서의 일반화 능력은 추가 연구 필요.

    - 제한된 수의 LMM에 대한 평가만 수행되었을 수 있으며, 다양한 모델에 대한 추가 실험 필요.

    - RPDR 외에 다른 성능 지표와의 비교 및 분석이 부족할 수 있음.

[PDF 보기](https://arxiv.org/pdf/2502.08636)

![https://i.imgur.com/CXzNClH.jpeg](https://i.imgur.com/CXzNClH.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).