본 논문은 기존 Vision-Language Understanding (VLU) 벤치마크(VQA v2, OKVQA, A-OKVQA, GQA, VCR, SWAG, VisualCOMET 등)에 존재하는 맥락 없는 답변 문제를 지적합니다. 이는 벤치마크 내 질문에 대한 답변이 제공된 시각 및 언어 정보만으로는 충분히 뒷받침되지 않고, 추가적인 가정에 의존하는 경우를 의미합니다. 이러한 문제는 모델의 편향된 학습과 환각(hallucination)을 유발합니다. 따라서 본 연구는 각 샘플에 대해 이용 가능한 맥락 데이터를 수집하고, 맥락 선택 모듈을 훈련하여 근거 기반의 예측을 가능하게 하는 방법을 제시합니다. 또한, 충분한 맥락이 부족한 샘플을 식별하고 답변을 유보함으로써 모델 정확도를 향상시키는 범용 맥락 인식 유보(CARA) 감지기를 개발했습니다. 마지막으로, 부적절한 맥락 감지기 성능을 평가하기 위한 Context Ambiguity and Sufficiency Evaluation (CASE) 세트를 제작했습니다. 실험 결과, 제안된 방법이 여러 벤치마크에서 성능 향상을 보였으며, CARA 감지기는 새로운 벤치마크에서도 일반화 성능을 보임을 확인했습니다.