Este artículo señala que los métodos existentes de preguntas y respuestas en video (VQA) se basan en anotaciones basadas en eventos, que no logran capturar adecuadamente el contexto del video. Para superar esta limitación, proponemos un enfoque novedoso: la generación de preguntas fundamentales con la integración de incrustaciones de preguntas para preguntas y respuestas en video (FIQ), que genera pares pregunta-respuesta fundamentales basados en descripciones extraídas de videos. FIQ permite al modelo comprender información básica de la escena a través de los pares pregunta-respuesta generados, mejorando así las capacidades de generalización e inferencia. Además, utilizamos el módulo VQ-CAlign para asociar incrustaciones de preguntas con características visuales y mejorar su adaptabilidad a tareas específicas. Mediante experimentos con el conjunto de datos SUTD-TrafficQA, demostramos que supera a los métodos existentes.