본 논문은 다중 모달 대규모 언어 모델(MLLMs)의 오류 취약성, 특히 잘못된 정보에 대한 반응 불확실성 현상을 탐구한다. 연구진은 9개의 표준 데이터셋과 12개의 최첨단 오픈소스 MLLM을 사용하여, 단일의 오해의 소지가 있는 단서가 주어졌을 때 이전에 정답이었던 답변을 뒤집는 비율이 65%에 달함을 밝혔다. 이를 정량적으로 분석하기 위해, 두 단계 평가 파이프라인 (원래 응답 확인 및 오해의 소지가 있는 지시어 주입 후 오류율 측정)을 제시하고, 오류율이 높은 예시들을 모아 다중 모달 불확실성 벤치마크(MUB)를 제작하였다. 12개의 오픈소스 및 5개의 클로즈드소스 모델에 대한 광범위한 평가 결과, 평균 오류율은 86%를 초과하며, 명시적 단서의 경우 67.19%, 암시적 단서의 경우 80.67%를 넘었다. 마지막으로, 2000개의 샘플로 구성된 혼합 지시어 데이터셋으로 오픈소스 MLLM들을 미세 조정하여 오류율을 크게 감소시켰다 (명시적 단서의 경우 6.97%, 암시적 단서의 경우 32.77%).