본 논문은 대규모 멀티모달 모델(LMM)의 비판 능력을 평가하기 위한 MM-CRITIC이라는 포괄적인 벤치마크를 소개합니다. 캡셔닝 및 시각적 추론과 같은 작업에서 LMM의 증가하는 능력에도 불구하고 멀티모달 비판에 대한 연구는 부족합니다. MM-CRITIC은 기본, 수정, 비교의 여러 차원에서 LMM의 비판 능력을 평가하며, 8가지 주요 작업 유형과 500개 이상의 작업을 포괄합니다. 4471개의 샘플로 구성된 이 벤치마크는 다양한 모델 크기를 가진 여러 LMM의 응답을 수집합니다. 신뢰할 수 있는 평가를 위해 전문가가 정보를 제공한 정답을 점수 매기기 기준에 통합하여 GPT-4o가 응답에 주석을 달고 신뢰할 수 있는 판단을 위한 기준으로 참조 비판을 생성하도록 합니다. 광범위한 실험을 통해 MM-CRITIC의 효과를 입증하고 주요 LMM의 비판 능력을 여러 차원에서 포괄적으로 평가합니다.