본 논문은 지구과학 분야, 특히 대학원 수준의 문제 해결에 초점을 맞춘 다중 모달 대규모 언어 모델(MLLM)의 적용을 위한 새로운 벤치마크인 MSEarth를 제시합니다. 기존 벤치마크의 한계점인 단순한 합성 데이터셋 또는 그림 캡션 쌍 사용 대신, MSEarth는 고품질 오픈 액세스 과학 출판물에서 얻은 7,000개 이상의 그림과 개선된 캡션을 포함합니다. 대기권, 빙권, 수권, 암권, 생물권 등 지구과학의 5대 영역을 다루며, 그림 캡션에 논문의 논의 및 추론을 추가하여 실제 과학적 응용에 필요한 미묘한 추론과 지식 집약적 내용을 담고 있습니다. 과학 그림 캡션 생성, 객관식 질문, 개방형 추론 과제 등 다양한 작업을 지원하며, Hugging Face와 GitHub에서 공개적으로 이용 가능합니다.