본 논문은 상식에 반하는 시각적 장면을 처리하는 데 있어 오픈소스 멀티모달 대형 언어 모델(MLLM)의 언어 편향을 평가합니다. 이를 위해 실제와 다른 시각적 상황을 담은 400개의 합성 장면으로 구성된 CAIT 벤치마크를 새롭게 제안하고, 이를 통해 인간과 최신 독점 모델, 그리고 14개의 오픈소스 MLLM을 평가했습니다. 결과적으로 오픈소스 모델들은 시각적 정보를 신뢰하기보다 통계적으로 일반적인 텍스트 설명을 우선시하는 강력한 언어 사전 편향으로 인해 현저히 낮은 성능을 보였습니다.