Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Can Large Multimodal Models Understand Agricultural Scenes? Benchmarking with AgroMind

Created by
  • Haebom

作者

Qingmei Li, Yang Zhang, Zurong Mai, Yuhang Chen, Shuohong Lou, Henglian Huang, Jiarui Zhang, Zhiwei Zhang, Yibin Wen, Weijia Li, Haohuan Fu, Jianxi Huang, Juepeng Zheng

概要

本論文は、農業遠隔検知(RS)分野における大規模マルチモーダルモデル(LMM)の性能を評価するための包括的なベンチマークであるAgroMindを提示します。既存のベンチマークのデータセットの多様性の欠如と過度に単純化された課題設計の制限を克服するために、AgroMindには、空間知覚、オブジェクトの理解、シーンの理解、シーンの推論など、4つの課題レベルと合計13の課題タイプが含まれています。 8つの公開データセットと1つのプライベート農地データセットを統合し、27,247個のQAペアと19,615個の画像で構成される高品質評価セットを構築しました。 20のオープンソースLMMと4つのクローズドソースモデルをAgroMindで評価したところ、特に空間推論と細分化された認識に大きな性能差があることがわかり、一部の最高性能のLMMが人の性能を上回ることがわかりました。 AgroMindは、農業RSの標準化された評価フレームワークを提供し、LMMのドメイン知識の制限を示し、今後の研究にとって重要な課題を強調します。データとコードはhttps://rssysu.github.io/AgroMind/で利用できます。

Takeaways、Limitations

Takeaways:
農業遠隔検出分野のための包括的で標準化されたベンチマークAgroMindの提示
LMMのパフォーマンス評価のためのさまざまな課題タイプ(空間知覚、オブジェクト理解、シーン理解、シーン推論)を提供
LMMのドメイン知識の限界と今後の研究方向の提示
一部のLMMが人間のパフォーマンスを上回る結果を導く
Limitations:
ベンチマークに含まれるデータセットの偏りの可能性(8個の公開データセット+ 1個のプライベートデータセット)
特定のLMMに対する過度の依存性の可能性(評価に使用される特定のモデルの制限)
空間推論と粒状認識におけるLMMの性能劣化原因の更なる分析が必要
👍