본 논문은 상용 GIS 전문가에게 관련된 다단계 지리 공간 작업에 대한 대규모 언어 모델(LLM) 평가 기준을 확립합니다. 23개의 지리 공간 함수를 갖춘 간단한 도구 호출 에이전트를 사용하여 7개의 주요 상용 LLM(Sonnet 3.5 및 3.7, Haiku 3.5, Gemini 2.0, GPT-4o, GPT-4o mini 및 o3-mini)을 평가합니다. 본 연구는 복잡성이 증가하는 네 가지 범주에 걸친 작업으로 구성되며, 환각 거부를 테스트하기 위해 해결 가능한 작업과 의도적으로 해결할 수 없는 작업 모두를 포함합니다. 참조 구현과 비교하여 에이전트 솔루션을 비교하기 위해 LLM-as-Judge 평가 프레임워크를 개발했습니다. 결과는 Sonnet 3.5와 GPT-4o가 전반적으로 최고의 성능을 달성했으며, Claude 모델은 해결 가능한 작업에서 뛰어난 성능을 보인 반면 OpenAI 모델은 해결할 수 없는 시나리오를 더 잘 식별했습니다. Anthropic 모델은 경쟁사보다 상당히 많은 토큰을 소비하는 것을 확인했습니다. 일반적인 오류에는 기하학적 관계 오해, 오래된 지식에 의존, 비효율적인 데이터 조작 등이 포함됩니다. 결과적으로 생성된 벤치마크 세트, 평가 프레임워크 및 데이터 생성 파이프라인은 오픈소스 리소스로 공개되어 GeoAI를 위한 LLM의 지속적인 평가를 위한 표준화된 방법을 하나 더 제공합니다.