EarthSE: A Benchmark Evaluating Earth Scientific Exploration Capability for Large Language Models
Created by
Haebom
저자
Wanghan Xu, Xiangyu Zhao, Yuhao Zhou, Xiaoyu Yue, Ben Fei, Fenghua Ling, Wenlong Zhang, Lei Bai
개요
본 논문은 지구과학 분야에 특화된, 대규모 언어 모델(LLM)의 과학적 탐구 능력을 종합적으로 평가하기 위한 벤치마크를 제시합니다. 기존 벤치마크의 일반적인 과학적 초점이나 특정 하위 영역에 대한 제한적인 평가를 극복하고자, 10만 건의 연구 논문을 활용하여 두 가지 질의응답(QA) 데이터셋(Earth-Iron, Earth-Silver)과 개방형 다회전 대화 데이터셋(Earth-Gold)을 구축했습니다. Earth-Iron은 광범위한 평가를 위한 포괄적인 질문을 제공하고, Earth-Silver는 전문적인 깊이를 평가하기 위한 고난도 질문을 포함합니다. Earth-Gold는 과학적 탐구에서의 고급 능력(방법론 유도, 한계 분석, 개념 제안 등)을 평가하기 위해 특별히 고안되었습니다. 다양한 도메인과 작업에 걸쳐 11개의 주요 LLM에 대한 실험 결과, 과학적 탐구 능력 향상을 위한 상당한 개선 여지가 있음을 보여줍니다. 본 벤치마크는 https://huggingface.co/ai-earth 에서 이용 가능합니다.