Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article présente AgroMind, un benchmark complet pour l'évaluation des performances des modèles multimodaux à grande échelle (MML) en télédétection agricole (TS). Pour pallier les limites des benchmarks existants, souvent caractérisés par un manque de diversité des jeux de données et une conception des tâches trop simplifiée, AgroMind englobe quatre dimensions et 13 types de tâches : perception spatiale, compréhension des objets, compréhension des scènes et inférence de scènes. En intégrant huit jeux de données publics et un jeu de données agricoles privé, nous avons construit un ensemble d'évaluation de haute qualité composé de 27 247 paires QA et de 19 615 images. L'évaluation de 20 MML open source et de quatre modèles fermés sur AgroMind a révélé des différences de performances significatives, notamment en matière d'inférence spatiale et de reconnaissance fine, certains MML les plus performants surpassant les performances humaines. AgroMind fournit un cadre d'évaluation standardisé pour la TS agricole, exposant les limites spécifiques des MML à chaque domaine et soulignant les défis importants pour la recherche future. Les données et le code sont disponibles à https://rssysu.github.io/AgroMind/ .
AgroMind présente une référence complète et standardisée pour la télédétection agricole.
◦
Fournit différents types de tâches (perception spatiale, compréhension d'objet, compréhension de scène, inférence de scène) pour évaluer les performances du LMM.
◦
Limites des connaissances du domaine du LMM et orientations de recherche futures
◦
Certains LMM produisent des résultats qui surpassent les performances humaines.
•
Limitations:
◦
Biais potentiel dans les ensembles de données inclus dans le benchmark (8 ensembles de données publics + 1 ensemble de données privé)
◦
Dépendance excessive possible à l'égard de LMM spécifiques (limites des modèles spécifiques utilisés pour l'évaluation)
◦
Des analyses plus approfondies sont nécessaires pour comprendre les raisons des faibles performances des LMM en matière de raisonnement spatial et de reconnaissance fine.