Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VLM@school – Évaluation de la compréhension des images d'IA sur les connaissances allemandes du collège

Created by
  • Haebom

Auteur

Ren et Peinl, Vincent Tischler

Contour

Cet article présente un nouvel ensemble de données de référence conçu pour évaluer les capacités des modèles de langage visuel (MLV) en allemand. Contrairement aux modèles de langage visuel existants, basés sur l'anglais, qui reposent sur des questions artificiellement difficiles ou découplées du contexte, cet ensemble de données comprend plus de 2 000 questions ouvertes basées sur 486 images tirées de programmes réels de collège dans neuf matières : mathématiques, histoire, biologie et religion. Ainsi, les modèles doivent intégrer l'interprétation visuelle et le raisonnement factuel, plutôt que de s'appuyer sur des indices textuels superficiels. Nous évaluons 13 MLL de pointe selon diverses dimensions (précision spécifique au domaine, performance aux questions contradictoires, etc.) et constatons que même les modèles les plus performants atteignent une précision globale inférieure à 45 %, notamment en musique, en mathématiques et dans les situations contradictoires. Nous montrons également qu'il existe un écart significatif entre la réussite aux tests de référence courants et la compréhension multimodale du monde réel. En conclusion, les tâches de niveau collège constituent un moyen pertinent et sous-utilisé de tester les VLM, notamment dans les environnements non anglophones. Cet ensemble de données et ce protocole d'évaluation constituent un banc d'essai rigoureux pour mieux comprendre et améliorer les capacités de raisonnement visuel et verbal des futurs systèmes d'IA.

Takeaways, Limitations

Takeaways:
Fournit un nouvel ensemble de données de référence pour évaluer les VLM non anglais, y compris l'allemand.
ÉValuer la capacité des VLM à comprendre le monde réel à travers des situations de problèmes réalistes basées sur des cours éducatifs réels.
Démontre clairement l’écart entre les repères existants et les performances réelles.
Proposer des pistes de recherche pour améliorer les capacités de raisonnement visuel et verbal des VLM.
Démontrer que les devoirs de niveau collège sont efficaces pour tester le stress des VLM.
Limitations:
L'ensemble de données actuel se limite au programme scolaire allemand du secondaire. Il doit être étendu à d'autres langues et programmes.
Le nombre de modèles évalués est limité à 13. Des recherches supplémentaires sont nécessaires, incluant des modèles plus diversifiés.
Manque d’analyse approfondie des causes des faibles performances dans des domaines spécifiques (musique, mathématiques).
Manque de suggestions spécifiques sur la manière d’améliorer la vulnérabilité aux questions contradictoires.
👍