Este artículo propone un marco de generación aumentada de recuperación iterativa multimodal (MI-RAG) para abordar las limitaciones de rendimiento de los modelos lingüísticos multimodales a gran escala (MLLM) para preguntas visuales intensivas en conocimiento que requieren conocimiento externo. MI-RAG aprovecha las inferencias para mejorar la recuperación y las actualiza en múltiples modalidades con base en el conocimiento recién descubierto. En cada iteración, genera dinámicamente múltiples consultas utilizando el historial de inferencia acumulado, realizando búsquedas conjuntas en bases de conocimiento heterogéneas que incluyen tanto conocimiento visual como textual. El conocimiento recién adquirido se integra en el historial de inferencia para mejorar iterativamente la comprensión. En puntos de referencia como Encyclopedic VQA, InfoSeek y OK-VQA, MI-RAG mejora significativamente la recuperación y la precisión de las respuestas, presentando un enfoque escalable para la inferencia constructiva en VQA intensivo en conocimiento.