Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

InfoCausalQA : les modèles peuvent-ils effectuer un raisonnement causal non explicite basé sur une infographie ?

Created by
  • Haebom

Auteur

Keummin Ka, parc Junhyeong, Jaehyun Jeon, Youngjae Yu

Contour

Cet article propose InfoCausalQA, un nouveau benchmark pour évaluer les capacités d'inférence causale des modèles de langage visuel (MLV). InfoCausalQA comprend deux tâches : l'inférence causale quantitative et l'inférence causale sémantique. InfoCausalQA évalue l'inférence causale à partir d'infographies, qui combinent des données visuelles structurées et des informations textuelles. À l'aide de GPT-4, nous avons généré 1 482 paires de questions-réponses à choix multiples à partir de 494 paires infographie-texte collectées auprès de quatre sources publiques. Ces paires ont été vérifiées manuellement afin de garantir que les réponses ne puissent pas être déduites uniquement d'indices superficiels. Les résultats expérimentaux montrent que les MVV existants présentent des capacités limitées en inférence causale, tant informatique que sémantique, et surpassent largement les humains. Cela souligne la nécessité d'améliorer les capacités d'inférence causale à l'aide d'informations infographiques.

Takeaways, Limitations

Takeaways:
Nous présentons InfoCausalQA, une nouvelle référence pour évaluer l’inférence causale basée sur l’infographie.
Présenter clairement les limites des capacités d’inférence causale des VLM existants, en particulier leurs capacités d’inférence causale sémantique.
Proposer des orientations de recherche pour améliorer les capacités d’inférence causale des systèmes d’IA multimodaux.
Limitations:
Le benchmark InfoCausalQA peut être relativement petit (en raison des limitations de taille de l'ensemble de données).
La génération de questions repose sur GPT-4. Les limitations de GPT-4 peuvent affecter les résultats.
Un examen supplémentaire peut être nécessaire pour garantir l’objectivité, en s’appuyant sur un processus d’examen manuel humain.
👍