# Lost in Space? Vision-Language Models Struggle with Relative Camera Pose Estimation

### 저자

Ken Deng, Yifu Qiu, Yoni Kasten, Shay B. Cohen, Yftah Ziser

### 💡 개요

본 연구는 비전-언어 모델(VLM)이 이미지 쌍으로부터 상대 카메라 자세 추정(RCPE)을 수행할 수 있는지 조사합니다. RCPE를 이산적인 언어 분류 문제로 정의하고, 실제 RGB-D 데이터셋과 분석 도구를 개발하여 VLM의 성능을 평가했습니다. 그 결과, VLM은 인간 및 기존 기하학적 방법론에 비해 RCPE에서 현저히 낮은 성능을 보였으며, 이는 VLM의 다중 시점 공간 추론 능력의 한계를 드러냅니다.

### 🔑 시사점 및 한계

- VLM은 단일 이미지 이해 능력은 뛰어나지만, 이미지 간 공간 관계를 파악하는 다중 시점 추론 능력은 부족합니다.

- VLM은 이미지 순서 변경에 민감하며, 특히 롤(roll)이나 깊이 이동과 같은 특정 카메라 움직임에 대한 이해도가 낮습니다.

- RCPE는 VLM의 교차 뷰 대응, 뷰 일관적 추론, 투영적 카메라 모션 이해 등 부족한 다중 시점 공간 추론 능력을 진단하고 개선하는 데 유용한 도구로 활용될 수 있습니다.

- 본 연구에서 사용된 VLM 성능의 한계는 아직 VLM이 복잡한 3D 공간 추론에 있어 발전이 필요함을 시사합니다.

[PDF 보기](https://arxiv.org/pdf/2601.22228)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
