Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Attention à l'écart (linguistique) : vers une exploration des limites numériques et interlingues des LVLM

Created by
  • Haebom

Auteur

Somraj Gautam, Abhirama Subramanyam Penamakuri, Abhishek Bhandari, Gaurav Harit

Contour

MMCRICBENCH-3K est un test de questions-réponses visuelles (VQA) pour les cartes de score de cricket. Il est conçu pour évaluer les capacités de raisonnement numérique et multilingue complexes sur des images tabulaires semi-structurées. Il comprend 1 463 images de cartes de score synthétiques aux formats ODI, T20 et Test, ainsi que 1 500 paires de QA en anglais. Il est divisé en deux sous-ensembles : MMCRICBENCH-E-1.5K, qui contient des cartes de score en anglais, et MMCRICBENCH-H-1.5K, qui contient des cartes de score en hindi visuellement similaires. Toutes les questions et réponses sont rédigées en anglais, ce qui permet une évaluation inter-scripts contrôlée. Cette tâche requiert un raisonnement sur des données numériques structurées, un contexte multi-images et une connaissance implicite du domaine. Les résultats expérimentaux montrent que même les LVLM de pointe, tels que GPT-4o et Qwen2.5VL, peinent sur le sous-ensemble anglais et obtiennent des résultats encore plus mauvais sur le sous-ensemble hindi. Cela met en évidence les principales limites de la compréhension visuelle de textes structurés, du raisonnement numérique et de la généralisation interlinguistique. L'ensemble de données est accessible au public via Hugging Face ( https://huggingface.co/datasets/DIALab/MMCricBench) .

Takeaways, Limitations

Takeaways: Nous présentons MMCRICBENCH-3K, un nouveau benchmark pour l'évaluation du raisonnement numérique et interlinguistique sur des images tabulaires semi-structurées. Nous révélons les limites des LVLM de pointe en matière de compréhension de textes visuels sensibles à la structure, de raisonnement numérique et de généralisation interlinguistique. Cet ensemble de données accessible au public facilite les recherches connexes.
Limitations: L'ensemble de données est basé sur des données synthétiques. Il ne prend actuellement en charge que deux langues : l'anglais et l'hindi. Il est limité au domaine spécifique des tableaux de bord de cricket, ce qui nécessite des recherches supplémentaires pour déterminer sa généralisabilité.
👍