この論文では、視覚言語モデル(VLM)の因果推論能力を評価するための新しいベンチマークであるInfoCausalQAを提案します。 InfoCausalQAは、構造化された視覚データとテキスト情報を組み合わせたインフォグラフィックに基づいて因果推論を評価する2つの課題(定量的因果推論、意味的因果推論)で構成されています。 4つの公開資料から収集した494のインフォグラフィック - テキストペアに基づいて、GPT - 4を使用して1,482の多指線多型質問 - 回答ペアを生成し、表面積手がかりだけでは答えが得られないように手動で検討しました。実験の結果,従来のVLMは計算的推論と意味的過推論の両方に限られた能力を示し,人間と比較してかなりの性能差を示した。これにより、インフォグラフィックベースの情報を活用した因果推論能力向上の必要性を強調します。