Dans cet article, nous proposons une approche KB-VQA basée sur la génération d'augmentation de la récupération (RAG) qui utilise des bases de connaissances externes (KB). Cette approche permet de résoudre le problème des difficultés d'accès des grands modèles de langage multimodaux (MLLM) de pointe aux connaissances spécifiques à un domaine ou aux connaissances actualisées dans les tâches de questions-réponses visuelles (VQA). Pour remédier à la perte d'informations d'image dans les techniques de récupération monomodales existantes, nous proposons un cadre de génération d'augmentation de la récupération d'unités de connaissances (KU-RAG) qui construit structurellement des unités de connaissances fines composées de diverses formes de fragments de données multimodaux, tels que des fragments de texte et des images d'objets, et les intègre à MLLM. KU-RAG garantit une récupération précise des connaissances pertinentes et améliore la capacité d'inférence grâce à des chaînes de modification des connaissances. Les résultats expérimentaux montrent que la méthode proposée surpasse les méthodes KB-VQA existantes de 3 % en moyenne et jusqu'à 11 % sur quatre benchmarks.