본 논문은 대규모 다중 모달 모델(LMM)의 견고한 이해 능력을 평가하기 위한 새로운 과제인 **해결 불가능한 문제 감지(UPD)**를 제시합니다. 기존의 다중 선택 질문 답변(MCQA) 방식은 LMM의 이해 능력을 평가하는 데 널리 사용되지만, 모델이 실제로 답을 이해하는지 보장하지 못합니다. UPD는 MCQA에서 해결 불가능한 문제를 만났을 때 LMM이 답변을 유보하는 능력을 평가하여 모델의 실제 이해 여부를 검증합니다. UPD는 답변 부족 또는 비호환되는 선택지, 이미지-질문 불일치와 같은 해결 불가능한 경우를 포함하는 세 가지 문제, 즉 답변 부재 감지(AAD), 비호환 답변 집합 감지(IASD), 비호환 시각 질문 감지(IVQD)로 구성됩니다. 평가를 위해 다양한 능력 차원에 걸쳐 성능을 평가하는 벤치마크인 MM-UPD 벤치마크를 제시합니다. 실험 결과, 기존 벤치마크에서 적절한 성능을 보이는 대부분의 LMM조차도 MM-UPD에서 상당한 어려움을 겪는다는 것을 보여주며, 기존 벤치마크가 간과한 신뢰성의 새로운 측면을 강조합니다. 상세 분석을 통해 LMM이 서로 다른 병목 현상을 가지고 있으며, 사고 연쇄 및 자기 반성이 LLM 능력에 병목 현상이 있는 LMM의 성능을 향상시킨다는 것을 보여줍니다. 본 연구의 통찰력이 더욱 신뢰할 수 있는 LMM의 이해와 개발을 향상시키기를 기대합니다.