본 논문은 시각 언어 모델(VLMs)의 인과 추론 능력을 평가하기 위한 새로운 벤치마크인 InfoCausalQA를 제안합니다. InfoCausalQA는 구조화된 시각 데이터와 텍스트 정보를 결합한 인포그래픽을 기반으로 인과 추론을 평가하는 두 가지 과제(정량적 인과 추론, 의미적 인과 추론)로 구성됩니다. 4개의 공개 자료에서 수집한 494개의 인포그래픽-텍스트 쌍을 바탕으로 GPT-4를 이용하여 1,482개의 다지선다형 질문-답변 쌍을 생성하고, 표면적 단서만으로는 답을 얻을 수 없도록 수동으로 검토했습니다. 실험 결과, 기존 VLMs는 계산적 추론 및 의미적 인과 추론에서 모두 제한적인 능력을 보였으며, 인간과 비교하여 상당한 성능 차이를 보였습니다. 이를 통해 인포그래픽 기반 정보를 활용한 인과 추론 능력 향상의 필요성을 강조합니다.