Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CrossWordBench : Évaluation des capacités de raisonnement des LLM et des LVLM avec génération de puzzles contrôlables

Created by
  • Haebom

Auteur

Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang

Contour

CrossWordBench est un nouveau benchmark qui évalue la capacité de raisonnement grâce à l'interaction d'indices textuels et d'une grille visuelle. Il utilise des mots croisés pour les modèles de langage à grande échelle (MLL) et les modèles de langage visuel à grande échelle (MLVL), proposant des grilles au format texte et image et permettant de varier la difficulté en ajustant le taux de remplissage du dictionnaire. Les évaluations de plus de 20 modèles démontrent que les LLM dotés de capacités de raisonnement surpassent significativement les modèles non inférentiels pour la résolution de mots croisés, et que les LVLM présentent une forte corrélation entre la performance de résolution de grille et la précision de l'analyse syntaxique. Cette étude met en évidence les limites des LLM et LVLM actuels en matière de capacité de raisonnement et présente une méthode efficace pour générer des tâches de contraintes multimodales en vue d'évaluations futures.

Takeaways, Limitations

Takeaways:
Une nouvelle référence pour évaluer les capacités de raisonnement multimodal qui prend en compte l’interaction entre le texte et les images est présentée.
Identification de la corrélation entre la capacité d'inférence des LLM et la capacité d'analyse de grille des LVLM
Présentation d’un cadre de référence flexible qui offre une variété de niveaux de difficulté et de méthodes d’évaluation.
Démontre clairement les limites des capacités d’inférence des LLM et LVLM actuels.
Limitations:
ÉValuation limitée à une tâche spécifique, comme des mots croisés
Manque d’analyse approfondie des causes de dégradation des performances des LVLM.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de l’indice de référence.
👍