Sign In

Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities

Created by
  • Haebom
Category
Empty

저자

Zhiyuan Li, Heng Wang, Dongnan Liu, Chaoyi Zhang, Ao Ma, Jieting Long, Weidong Cai

개요

본 논문은 시각적 단서가 텍스트에 숨겨져 있는 복잡한 추론 과제에서 다중 모달 대규모 언어 모델(MLLM)의 인과 추론 능력을 평가하기 위해 새로운 벤치마크인 MuCR을 제안합니다. MuCR은 합성 시아미즈 이미지와 텍스트 쌍을 활용하며, 이미지 일치, 구절 이해, 문장 설명 등 다양한 관점에서 모델의 이해 능력을 종합적으로 평가하기 위한 맞춤형 지표를 개발했습니다. 실험 결과, 현재 MLLM은 순수 텍스트 환경에 비해 다중 모달 인과 추론에서 부족한 성능을 보이며, 시각적 단서 식별이 핵심임을 밝혔습니다. 또한, 시각적 단서를 더 잘 강조하는 VcCoT 전략을 제안하고, 그 효과를 확인했습니다. GitHub 저장소 링크: https://github.com/Zhiyuan-Li-John/MuCR

시사점, 한계점

시사점:
다중 모달 대규모 언어 모델의 인과 추론 능력에 대한 새로운 벤치마크(MuCR) 제시
시각적 단서 식별이 다중 모달 인과 추론에서 중요한 역할을 수행함을 밝힘
시각적 단서를 강조하는 VcCoT 전략을 통해 다중 모달 인과 추론 성능 향상 가능성 제시
한계점:
MuCR 벤치마크는 합성 데이터를 사용하므로, 실제 세계 데이터에 대한 일반화 성능 검증 필요
VcCoT 전략의 효과는 특정 데이터셋과 모델에 국한될 수 있음
다양한 유형의 시각적 단서와 인과 관계에 대한 추가적인 연구 필요
👍