본 논문은 시각적 상식 추론(VCR) 과제를 해결하기 위해 병렬 어텐션 기반 인지 VCR 네트워크(PAVCR)를 제안합니다. VCR 과제는 질문과 이미지를 입력받아 상식적 추론을 통해 답변과 그 근거를 예측하는 과제로, 다양한 응용 분야(시각적 질문 응답, 자동차 시스템, 의료 의사결정 지원 등)에서 중요성을 지닙니다. 기존 VCR 모델들은 사전 훈련이나 장기 의존 관계를 갖는 모델을 사용하지만, 일반화 성능이 낮고 긴 시퀀스에서 정보 손실이 발생하는 문제점이 있습니다. PAVCR은 시각-텍스트 정보를 효율적으로 융합하고 병렬적으로 의미 정보를 인코딩하여 풍부한 정보를 활용한 인지 수준 추론을 가능하게 합니다. 실험 결과, PAVCR은 기존 방법들보다 VCR 벤치마크 데이터셋에서 성능이 크게 향상되었으며, 시각적 상식 추론에 대한 직관적인 해석을 제공합니다.