AutoGEEval은 Google Earth Engine(GEE) 플랫폼에서 대규모 언어 모델(LLM)을 기반으로 하는 지리공간 코드 생성 작업을 위한 최초의 다중 모드, 단위 수준 자동 평가 프레임워크입니다. GEE Python API를 기반으로 구축된 AutoGEEval은 26가지 GEE 데이터 유형을 포함하는 1325개의 테스트 사례로 구성된 벤치마크 모음(AutoGEEval-Bench)을 구축합니다. 함수 호출부터 실행 검증까지의 엔드투엔드 자동 평가 파이프라인을 가능하게 하도록 질문 생성 및 답변 검증 구성 요소를 통합합니다. 정확도, 리소스 소비, 실행 효율성 및 오류 유형 측면에서 모델 출력의 다차원 정량적 분석을 지원합니다. 18개의 최첨단 LLM(범용, 추론 증강, 코드 중심 및 지구 과학 전문 모델 포함)을 평가하여 GEE 코드 생성에서의 성능 특성과 잠재적인 최적화 경로를 밝힙니다. 자동화된 자연어에서 도메인 특정 코드 변환의 최전선을 발전시키는 지리공간 코드 생성 모델의 개발 및 평가를 위한 통합 프로토콜 및 기본 리소스를 제공합니다.
시사점, 한계점
•
시사점:
◦
지리공간 코드 생성 분야에서 자동 평가를 위한 표준화된 도구 부재 문제 해결
◦
다중 모드, 단위 수준 자동 평가 프레임워크 AutoGEEval 제시 및 벤치마크 데이터셋(AutoGEEval-Bench) 제공
◦
다양한 LLM의 지리공간 코드 생성 성능 비교 및 분석 가능
◦
지리공간 코드 생성 모델 개발 및 평가를 위한 통합 프로토콜 제공
◦
향후 지리공간 코드 생성 모델의 발전을 위한 기초 자원 제공
•
한계점:
◦
현재는 Google Earth Engine 플랫폼에 특화된 프레임워크임. 다른 플랫폼으로의 확장성 연구 필요.