Cet article propose un cadre de génération augmentée de récupération itérative multimodale (MI-RAG) afin de pallier les limitations de performance des modèles linguistiques multimodaux à grande échelle (MLLM) pour les questions visuelles à forte intensité de connaissances nécessitant des connaissances externes. MI-RAG exploite les inférences pour améliorer la récupération et met à jour les inférences sur plusieurs modalités en fonction des connaissances nouvellement découvertes. À chaque itération, il génère dynamiquement plusieurs requêtes à partir de l'historique d'inférence accumulé, effectuant des recherches conjointes dans des bases de connaissances hétérogènes comprenant à la fois des connaissances visuelles et textuelles. Les connaissances nouvellement acquises sont intégrées à l'historique d'inférence pour améliorer la compréhension de manière itérative. Sur des benchmarks tels que Encyclopedic VQA, InfoSeek et OK-VQA, MI-RAG améliore significativement le rappel de la récupération et la précision des réponses, offrant une approche évolutive pour l'inférence constructive dans les VQA à forte intensité de connaissances.