Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GeoBenchX: Benchmarking LLMs in Agent Solving Multistep Geospatial Tasks

Created by
  • Haebom

저자

Varvara Krechetova, Denis Kochedykov

개요

본 논문은 상업용 GIS 실무자에게 관련된 다단계 공간 작업을 수행하는 대규모 언어 모델(LLM)의 도구 호출 능력을 평가하기 위한 벤치마크를 제시합니다. 23개의 공간 기능을 갖춘 단순한 도구 호출 에이전트를 사용하여 8개의 상업용 LLM(Claude Sonnet 3.5 및 4, Claude Haiku 3.5, Gemini 2.0 Flash, Gemini 2.5 Pro Preview, GPT-4o, GPT-4.1 및 o4-mini)을 평가합니다. 벤치마크는 난이도가 증가하는 4가지 범주의 작업으로 구성되며, 거부 정확도를 테스트하기 위해 해결 가능한 작업과 의도적으로 해결할 수 없는 작업이 모두 포함됩니다. LLM-as-Judge 평가 프레임워크를 개발하여 에이전트 솔루션을 참조 솔루션과 비교합니다.

시사점, 한계점

o4-mini와 Claude 3.5 Sonnet이 전반적으로 가장 우수한 성능을 보임.
OpenAI의 GPT-4.1, GPT-4o, Google의 Gemini 2.5 Pro Preview도 근접한 성능을 보였지만, 후자는 해결 불가능한 작업 식별에 더 효율적임.
Claude Sonnet 4는 작업을 거부하기보다 어떤 해결책이라도 제공하려는 경향으로 인해 정확도가 낮음.
Anthropic 모델은 다른 경쟁 모델보다 더 많은 토큰을 사용함.
일반적인 오류로는 기하학적 관계 오해, 오래된 지식 의존, 비효율적인 데이터 조작 등이 있음.
결과적으로 벤치마크 세트, 평가 프레임워크 및 데이터 생성 파이프라인은 오픈 소스 리소스로 공개됨(https://github.com/Solirinai/GeoBenchX).
👍