본 논문은 다중 모달 대규모 언어 모델(MLLM)을 이용한 시각화 질의응답(VisQA) 평가의 한계점을 지적하고, 이를 개선하기 위한 새로운 검증 프레임워크를 제안합니다. 기존 VisQA 평가는 MLLM이 시각 정보를 실제로 이해하고 활용하는지, 아니면 단순히 기존 지식을 활용하여 답하는지를 명확히 구분하지 못하는 문제점을 가지고 있습니다. 연구진은 MLLM이 시각 정보 없이도 상당수의 VisQA 질문에 정답을 제시할 수 있다는 것을 발견하고, 이는 모델의 방대한 지식 기반이 시각적 정보 처리보다 우선하기 때문이라고 주장합니다. 따라서, 규칙 기반 의사결정 트리와 검증 테이블을 통합한 새로운 검증 프레임워크를 제안하여, 모델의 시각 처리 능력과 기존 지식 활용 정도를 분리하여 평가하고자 합니다. 이는 VisQA 데이터셋의 유효성을 검증하고, 모델이 시각 정보를 실제로 '보는'지, 기존 지식에 의존하는지, 또는 귀납적 편향에 의존하는지를 파악하는 데 도움을 줍니다.