Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Can Large Multimodal Models Understand Agricultural Scenes? Benchmarking with AgroMind

Created by
  • Haebom

作者

Qingmei Li, Yang Zhang, Zurong Mai, Yuhang Chen, Shuohong Lou, Henglian Huang, Jiarui Zhang, Zhiwei Zhang, Yibin Wen, Weijia Li, Haohuan Fu, Jianxi Huang, Juepeng Zheng

概要

本論文は農業遠隔検知分野に特化した総合的なベンチマークであるAgroMindを提示します。既存のベンチマークのデータセットの多様性の欠如と過度に単純化された課題設計の限界を克服するために、8つの公開データセットと1つのプライベート農地データセットを統合し、合計27,247個のQAペアと19,615個の画像を含む高品質評価セットを構築しました。 AgroMindは、空間認識、オブジェクト理解、シーン理解、シーン推論の4つの作業次元にわたる13種類の作業タイプ(作物の識別と健康監視から環境分析まで)をカバーしています。 20のオープンソースLMMと4つのクローズドソースモデルをAgroMindで評価したところ、特に空間推論と細分化された認識にはかなりの性能差があることが示され、一部の主要なLMMが人間の性能を上回ることがわかりました。 AgroMindは農業遠隔検知のための標準化された評価フレームワークを構築し、LMMのドメイン知識の限界を明らかにし、今後の研究にとって重要な課題を強調します。データとコードはhttps://rssysu.github.io/AgroMind/で利用できます。

Takeaways、Limitations

Takeaways:
農業遠隔検知分野のための包括的で標準化されたベンチマークAgroMindを提供
LMMの性能を客観的に評価し改善するための基盤を築く
LMMのドメイン知識限界と今後の研究方向の提示(特に空間推論と細分化認識)
一部のLMMが人間の性能を凌駕することを示すことでLMMの発展性を確認
Limitations:
AgroMindデータセットの範囲と多様性に関するさらなる研究が必要
より多様なLMMモデルの評価が必要
特定のジョブタイプのパフォーマンス偏差の原因の詳細な分析が必要
👍