Cet article propose InfoCausalQA, un nouveau benchmark pour évaluer les capacités d'inférence causale des modèles de langage visuel (MLV). InfoCausalQA comprend deux tâches : l'inférence causale quantitative et l'inférence causale sémantique. InfoCausalQA évalue l'inférence causale à partir d'infographies, qui combinent des données visuelles structurées et des informations textuelles. À l'aide de GPT-4, nous avons généré 1 482 paires de questions-réponses à choix multiples à partir de 494 paires infographie-texte collectées auprès de quatre sources publiques. Ces paires ont été vérifiées manuellement afin de garantir que les réponses ne puissent pas être déduites uniquement d'indices superficiels. Les résultats expérimentaux montrent que les MVV existants présentent des capacités limitées en inférence causale, tant informatique que sémantique, et surpassent largement les humains. Cela souligne la nécessité d'améliorer les capacités d'inférence causale à l'aide d'informations infographiques.