본 논문은 무인 항공기(UAV) 기반 원격 감지에서 정확한 거리 및 면적 계산, 궤적 추정, 공간 분석과 같은 작업에 중요한 수학적 추론 능력에 대해 기존의 비전-언어 모델(VLMs)이 충분히 검증되지 않았다는 문제점을 제기합니다. 이를 해결하기 위해, 기하학, 논리, 대수와 같은 영역의 도메인 특정 지식을 포함하는, 단순한 계산 작업을 넘어서는 항공기 영상에서의 다중 모드 수학적 추론을 엄격하게 평가하기 위한 첫 번째 벤치마크인 AVI-Math를 제시합니다. AVI-Math는 다양한 고도와 여러 UAV 각도에서 수집된 3,773개의 고품질 차량 관련 질문으로 구성되며, 6가지 수학 과목과 20가지 주제를 다룹니다. 본 논문에서는 14개의 주요 VLMs를 포괄적으로 평가하고, 이전의 다중 모달 벤치마크에서의 성공에도 불구하고 이러한 모델들이 AVI-Math의 추론 작업에서 어려움을 겪는다는 것을 보여줍니다. 또한 Chain-of-Thought 프롬프팅 및 미세 조정 기법을 탐색하여 AVI-Math의 추론 과제 해결에 효과가 있음을 보여줍니다.