EarthSE: A Benchmark for Evaluating Earth Scientific Exploration Capability of LLMs
Created by
Haebom
저자
Wanghan Xu, Xiangyu Zhao, Yuhao Zhou, Xiaoyu Yue, Ben Fei, Fenghua Ling, Wenlong Zhang, Lei Bai
개요
본 논문은 지구과학 분야에서 대규모 언어 모델(LLM)의 과학적 탐구 능력을 종합적으로 평가하기 위한 벤치마크를 제시합니다. 기존 벤치마크의 한계인 일반적인 과학적 초점, 지구과학 특수성 결여, 특정 하위 영역만 다룸, 개방형 과학 탐구 능력 평가 부재 등을 해결하기 위해, 10만 건의 연구 논문을 활용하여 두 가지 질의응답(QA) 데이터셋(Earth-Iron, Earth-Silver)과 개방형 다회차 대화 데이터셋(Earth-Gold)을 구성했습니다. Earth-Iron은 광범위한 평가를 위한 포괄적인 질문을, Earth-Silver는 전문적인 심층 평가를 위한 고난도 질문을 제공합니다. Earth-Gold는 새로운 평가 지표를 도입하여 과학적 탐구의 고급 기능(방법론 유도, 한계 분석, 개념 제안 등)을 평가합니다. 11개의 주요 LLM을 대상으로 실험한 결과, 다양한 영역과 과제에서 LLM의 과학적 탐구 능력에 상당한 개선 여지가 있음을 보여줍니다. 해당 벤치마크는 https://huggingface.co/ai-earth 에서 이용 가능합니다.