본 논문은 대규모 언어 모델(LLM)을 시각 입력을 통합한 대규모 시각-언어 모델(LVLM)의 인과 추론 능력을 평가하기 위한 벤치마크인 CausalVLBench를 소개한다. CausalVLBench는 인과 구조 추론, 개입 대상 예측, 반사실 예측의 세 가지 대표적인 과제를 포함하며, 최첨단 오픈 소스 LVLM의 성능을 평가한다. 본 연구는 기존 LVLM의 한계를 밝히고, 시각적 인과 추론 능력 향상을 위한 새로운 연구 방향을 제시하고자 한다.