본 논문은 농업 원격 감지(RS) 분야에서 대규모 다중 모달 모델(LMM)의 성능을 평가하기 위한 종합적인 벤치마크인 AgroMind를 제시합니다. 기존 벤치마크의 데이터셋 다양성 부족 및 과도하게 단순화된 과제 설계의 한계를 극복하기 위해, AgroMind는 공간 지각, 객체 이해, 장면 이해, 장면 추론 등 4가지 과제 차원과 총 13가지 과제 유형을 포함합니다. 8개의 공개 데이터셋과 1개의 사설 농지 데이터셋을 통합하여 27,247개의 QA 쌍과 19,615개의 이미지로 구성된 고품질 평가 세트를 구축하였습니다. 20개의 오픈소스 LMM과 4개의 클로즈드소스 모델을 AgroMind에서 평가한 결과, 특히 공간 추론 및 세분화된 인식에서 상당한 성능 차이가 있음을 발견하였으며, 일부 최고 성능의 LMM이 사람의 성능을 능가하는 것으로 나타났습니다. AgroMind는 농업 RS에 대한 표준화된 평가 프레임워크를 제공하여 LMM의 도메인 지식 제한을 보여주고 향후 연구를 위한 중요한 과제를 강조합니다. 데이터와 코드는 https://rssysu.github.io/AgroMind/ 에서 이용 가능합니다.