Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les grands modèles multimodaux peuvent-ils comprendre les scènes agricoles ? Analyse comparative avec AgroMind

Created by
  • Haebom

Auteur

Qingmei Li, Yang Zhang, Zurong Mai, Yuhang Chen, Shuohong Lou, Henglian Huang, Jiarui Zhang, Zhiwei Zhang, Yibin Wen, Weijia Li, Haohuan Fu, Jianxi Huang, Juepeng Zheng

Contour

Cet article présente AgroMind, un benchmark complet spécialisé dans la télédétection agricole. Afin de surmonter les limites des benchmarks existants, notamment la diversité limitée des jeux de données et la simplification excessive de la conception des tâches, nous avons intégré huit jeux de données publics et un jeu de données agricoles privé afin de constituer un ensemble d'évaluation de haute qualité contenant 27 247 paires QA et 19 615 images. AgroMind couvre 13 types de tâches (de l'identification des cultures et de la surveillance sanitaire à l'analyse environnementale) réparties sur quatre dimensions : perception spatiale, compréhension des objets, compréhension des scènes et inférence de scènes. L'évaluation de 20 LMM open source et de quatre modèles fermés avec AgroMind révèle des différences de performances significatives, notamment en matière d'inférence spatiale et de reconnaissance fine, certains LMM de pointe surpassant les performances humaines. AgroMind établit un cadre d'évaluation standardisé pour la télédétection agricole, exposant les limites du domaine des LMM et soulignant les défis importants pour la recherche future. Les données et le code sont disponibles à l'adresse https://rssysu.github.io/AgroMind/ .

Takeaways, Limitations

Takeaways:
AgroMind fournit des repères complets et standardisés pour la télédétection agricole.
ÉTablir une base pour évaluer et améliorer objectivement les performances du LMM
Limites des connaissances du domaine du LMM et orientations de recherche futures (en particulier le raisonnement spatial et la perception fine)
Nous démontrons que certains LMM peuvent surpasser les humains, confirmant ainsi le potentiel des LMM.
Limitations:
Des recherches supplémentaires sont nécessaires pour comprendre la portée et la diversité de l’ensemble de données AgroMind.
Des modèles LMM plus diversifiés doivent être évalués.
Une analyse approfondie est nécessaire pour déterminer la cause des écarts de performance pour des types de tâches spécifiques.
👍