Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities
Created by
Haebom
Category
Empty
저자
Zhiyuan Li, Heng Wang, Dongnan Liu, Chaoyi Zhang, Ao Ma, Jieting Long, Weidong Cai
개요
본 논문은 시각적 단서가 텍스트에 숨겨져 있는 복잡한 추론 과제에서 다중 모달 대규모 언어 모델(MLLM)의 인과 추론 능력을 평가하기 위해 새로운 벤치마크인 MuCR을 제안합니다. MuCR은 합성 시아미즈 이미지와 텍스트 쌍을 활용하며, 이미지 일치, 구절 이해, 문장 설명 등 다양한 관점에서 모델의 이해 능력을 종합적으로 평가하기 위한 맞춤형 지표를 개발했습니다. 실험 결과, 현재 MLLM은 순수 텍스트 환경에 비해 다중 모달 인과 추론에서 부족한 성능을 보이며, 시각적 단서 식별이 핵심임을 밝혔습니다. 또한, 시각적 단서를 더 잘 강조하는 VcCoT 전략을 제안하고, 그 효과를 확인했습니다. GitHub 저장소 링크: https://github.com/Zhiyuan-Li-John/MuCR