Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Comprendre l'espace est une science complexe : seuls les meilleurs modèles de raisonnement peuvent résoudre les problèmes de compréhension spatiale.
Created by
Haebom
Auteur
Nils Hoehing, Mayug Maniparambil, Ellen Rushe, Noel E. O'Connor, Anthony Ventresque
Contour
RocketScience est un benchmark VLM contrastif open source conçu pour évaluer la compréhension des relations spatiales. Il se compose de nouvelles paires image-texte réelles, principalement axées sur la compréhension spatiale relative et l'ordonnancement des objets. Conçu pour être simple d'utilisation pour les humains, mais complexe pour les modèles VLM actuels, il est validé expérimentalement. Les résultats démontrent les lacunes des VLM open source et commerciaux de pointe en matière de compréhension des relations spatiales, tout en démontrant les performances étonnamment élevées des modèles d'inférence. De plus, nous avons réalisé une analyse pour séparer les contributions de la localisation des objets et du raisonnement spatial dans un modèle basé sur la chaîne de pensée, et avons constaté que les performances du benchmark sont limitées par le raisonnement spatial, et non par la localisation des objets. L'ensemble de données est publié sous licence CC-BY-4.0 et le code d'évaluation est disponible à l' adresse https://github.com/nilshoehing/rocketscience .
Démontrer expérimentalement que les modèles VLM actuels ont du mal à comprendre les relations spatiales.
◦
Nous révélons que la capacité de raisonnement spatial est un goulot d’étranglement majeur dans les performances du VLM.
◦
Fournit RocketScience, une nouvelle référence pour évaluer la compréhension des relations spatiales.
◦
Confirmation de la grande capacité d’inférence spatiale du modèle d’inférence.
◦
Permettre la recherche en fournissant des ensembles de données ouverts et du code d'évaluation.
•
Limitations:
◦
Les critères de référence peuvent se concentrer uniquement sur la compréhension de types spécifiques de relations spatiales et peuvent ne pas évaluer pleinement les capacités générales de raisonnement spatial.
◦
Bien que cela démontre clairement les limites du VLM actuel, la pertinence du benchmark doit être continuellement revue à mesure que le VLM évolue à l’avenir.