본 논문은 비디오 질의응답(VQA)에서 기존 방법들이 이벤트 중심의 주석에 의존하여 비디오의 맥락을 제대로 포착하지 못하는 문제점을 지적합니다. 이러한 한계를 극복하기 위해, 비디오에서 추출한 설명을 기반으로 기본적인 질의응답 쌍을 생성하는 새로운 접근 방식인 FIQ(Fundamental Question generation with the integration of question embeddings for video question answering)를 제안합니다. FIQ는 생성된 질의응답 쌍을 통해 모델이 기본적인 장면 정보를 이해하고, 일반화 및 추론 능력을 향상시킵니다. 또한, VQ-CAlign 모듈을 활용하여 질의 임베딩과 시각적 특징을 연관시켜 특정 작업에 대한 적응력을 높입니다. SUTD-TrafficQA 데이터셋에서 실험을 통해 기존 방법들보다 우수한 성능을 달성함을 보여줍니다.