The Cartesian Shortcut: Re-evaluate Vision Reasoning in Polar Coordinate Space

Author

Haebom

저자

Xia Hu, Zhenrui Yue, Brian Potetz, Howard Zhou, Leonidas Guibas, Chun-Ta Lu, Zhicheng Wang

💡 개요

본 논문은 기존 시각 추론 벤치마크가 직교 격자 기반 레이아웃에 의존하여 모델이 텍스트 기반 좌표 추론에 지나치게 의존하는 "Cartesian Shortcut" 취약점을 가지고 있음을 지적합니다. 이를 해결하기 위해 저자들은 53개의 시각 추론 작업을 극좌표 공간으로 재구성한 Polaris-Bench를 제안하며, 최신 멀티모달 대형 언어 모델(MLLM)들이 극좌표 환경에서 성능이 크게 저하됨을 보여줍니다. 이는 현재 MLLM이 진정한 토폴로지 불변의 시각 추론 능력이 부족함을 드러냅니다.

🔑 시사점 및 한계

•

현재 MLLM은 직교 좌표계의 구조적 특성을 이용하여 텍스트 기반의 추론에 크게 의존하고 있어, 실제 시각적 이해 능력이 과대평가될 수 있습니다.

•

극좌표 공간으로 재구성된 벤치마크를 통해 MLLM의 근본적인 시각 추론 능력을 평가할 수 있으며, 이는 모델의 한계를 명확히 보여줍니다.

•

본 연구는 MLLM의 토폴로지 불변 시각 추론 능력을 향상시키기 위한 새로운 연구 방향을 제시하며, 향후 MLLM 개발에 중요한 함의를 가집니다.

•

극좌표 공간에서의 성능 저하가 논리적 일관성이 유지될 때도 발생한다는 점은, 단순히 좌표계 전환으로 인한 어려움이 아닌, 공간적 관계 이해의 본질적인 문제임을 시사합니다.

PDF 보기

Made with Slashpage