Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can Large Multimodal Models Understand Agricultural Scenes? Benchmarking with AgroMind

Created by
  • Haebom

저자

Qingmei Li, Yang Zhang, Zurong Mai, Yuhang Chen, Shuohong Lou, Henglian Huang, Jiarui Zhang, Zhiwei Zhang, Yibin Wen, Weijia Li, Haohuan Fu, Jianxi Huang, Juepeng Zheng

개요

본 논문은 농업 원격 감지(RS) 분야에서 대규모 다중 모달 모델(LMM)의 성능을 평가하기 위한 종합적인 벤치마크인 AgroMind를 제시합니다. 기존 벤치마크의 데이터셋 다양성 부족 및 과도하게 단순화된 과제 설계의 한계를 극복하기 위해, AgroMind는 공간 지각, 객체 이해, 장면 이해, 장면 추론 등 4가지 과제 차원과 총 13가지 과제 유형을 포함합니다. 8개의 공개 데이터셋과 1개의 사설 농지 데이터셋을 통합하여 27,247개의 QA 쌍과 19,615개의 이미지로 구성된 고품질 평가 세트를 구축하였습니다. 20개의 오픈소스 LMM과 4개의 클로즈드소스 모델을 AgroMind에서 평가한 결과, 특히 공간 추론 및 세분화된 인식에서 상당한 성능 차이가 있음을 발견하였으며, 일부 최고 성능의 LMM이 사람의 성능을 능가하는 것으로 나타났습니다. AgroMind는 농업 RS에 대한 표준화된 평가 프레임워크를 제공하여 LMM의 도메인 지식 제한을 보여주고 향후 연구를 위한 중요한 과제를 강조합니다. 데이터와 코드는 https://rssysu.github.io/AgroMind/ 에서 이용 가능합니다.

시사점, 한계점

시사점:
농업 원격 감지 분야를 위한 종합적이고 표준화된 벤치마크 AgroMind 제시
LMM의 성능 평가를 위한 다양한 과제 유형 (공간 지각, 객체 이해, 장면 이해, 장면 추론) 제공
LMM의 도메인 지식 한계 및 향후 연구 방향 제시
일부 LMM이 인간의 성능을 능가하는 결과 도출
한계점:
벤치마크에 포함된 데이터셋의 편향 가능성 (8개 공개 데이터셋 + 1개 사설 데이터셋)
특정 LMM에 대한 과도한 의존성 가능성 (평가에 사용된 특정 모델의 한계)
공간 추론 및 세분화된 인식에서 LMM의 성능 저하 원인에 대한 추가 분석 필요
👍