본 논문은 기존의 다중 모달 대규모 언어 모델(MLLM)들이 실제 세계의 레이아웃이 풍부한 콘텐츠에서의 불일치를 다룰 수 있는지에 대한 질문에 답하기 위해, 다중 모달 불일치 추론(MMIR) 벤치마크를 제안합니다. MMIR은 웹페이지, 프레젠테이션 슬라이드, 포스터와 같은 자료에서 의미상의 불일치를 감지하고 추론하는 MLLM의 능력을 평가하기 위해 534개의 도전적인 샘플로 구성됩니다. 각 샘플에는 사실적 모순, 신원 오류 지정, 맥락적 불일치, 정량적 불일치, 시간적/공간적 비일관성 등 다섯 가지 추론 중심 범주에 걸쳐 인위적으로 주입된 오류가 포함되어 있습니다. 6개의 최첨단 MLLM을 평가한 결과, o1과 같이 전용 다중 모달 추론 기능을 갖춘 모델이 다른 모델보다 훨씬 우수한 성능을 보였으며, 오픈소스 모델은 특히 불일치 오류에 취약한 것으로 나타났습니다. 상세한 오류 분석을 통해 모델이 쌍으로 된 불일치를 감지하는 데는 능숙하지만, 복잡한 레이아웃에서 단일 요소에 국한된 불일치에는 어려움을 겪는다는 것을 보여줍니다. 추가적인 조사 실험을 통해 Chain-of-Thought(CoT) 및 Set-of-Mark(SoM) 방법을 포함한 단일 모드 프롬프팅이 미미한 이점만을 제공한다는 것을 밝혀냄으로써 교차 모드 추론의 주요 병목 현상을 드러냅니다. 결론적으로 본 연구는 고급 다중 모달 추론의 필요성을 강조하고 다중 모달 불일치에 대한 미래 연구를 제시합니다.