본 논문은 컴퓨터 비전과 자연어 처리의 교차점에 있는 핵심 과제인 시각 질문 응답(VQA)에 대해 다룬다. VQA 모델은 시각적 콘텐츠를 이해하고 자연어 질문에 응답하기 위해 추론해야 한다. 논문은 VQA 데이터셋 분석의 중요성을 강조하며, 질문 다양성, 답변 분포, 시각-텍스트 상관관계에 대한 다양한 관점을 제공하는 여러 접근 방식을 검토한다. 또한 기존 VQA 모델이 직면하는 데이터셋 편향, 제한된 모델 복잡성, 상식 추론 부족, 엄격한 평가 방법, 현실 세계 시나리오로의 일반화 등의 문제점을 지적한다. 마지막으로, 원본 VQA 데이터셋과 기준 모델 및 방법론에 대한 자세한 연구와 함께 ABC-CNN, KICNLE, Masked Vision and Language Modeling, BLIP-2, OFA 등 다섯 가지 고급 VQA 모델을 비교 연구하여 각 모델이 상기 문제점에 대처하는 방법을 분석한다.