본 논문은 시각적 단서가 텍스트에 숨겨져 있는 복잡한 상황에서 다중 모달 대규모 언어 모델(MLLM)의 인과 추론 능력을 평가하기 위해 새로운 벤치마크 MuCR을 제시합니다. MuCR은 합성 시아미즈 이미지와 텍스트 쌍을 활용하며, 이미지 일치, 구절 이해, 문장 설명 등 다양한 관점에서 모델의 이해 능력을 종합적으로 평가하는 맞춤형 지표를 개발했습니다. 실험 결과, 기존 MLLM은 순수 텍스트 설정에 비해 다중 모달 인과 추론에서 성능이 떨어지는 것으로 나타났으며, 시각적 단서 식별이 상호 모달 일반화의 핵심임을 확인했습니다. 마지막으로, 시각적 단서를 더 잘 강조하는 VcCoT 전략을 제안하고, 이 전략이 다중 모달 인과 추론 향상에 효과적임을 확인했습니다.