Cet article souligne que les méthodes existantes de questions-réponses vidéo (VQA) reposent sur des annotations pilotées par événements, qui ne parviennent pas à capturer correctement le contexte de la vidéo. Pour surmonter cette limitation, nous proposons une nouvelle approche : la génération de questions fondamentales avec intégration d'intégrations de questions pour les questions-réponses vidéo (FIQ). Cette approche génère des paires questions-réponses fondamentales à partir de descriptions extraites des vidéos. La FIQ permet au modèle de comprendre les informations de base de la scène grâce aux paires questions-réponses générées, améliorant ainsi les capacités de généralisation et d'inférence. De plus, nous exploitons le module VQ-CAlign pour associer les intégrations de questions à des caractéristiques visuelles afin d'améliorer leur adaptabilité à des tâches spécifiques. Des expériences sur le jeu de données SUTD-TrafficQA démontrent ses performances par rapport aux méthodes existantes.