Este artículo propone REFINE (Recuperación mejorada mediante libro de errores neuronales contextual), un novedoso marco para mejorar la capacidad de inferencia de los modelos lingüísticos multimodales a gran escala (MLLM). REFINE prioriza el aprendizaje a partir de errores y proporciona retroalimentación estructurada mediante tres consultas sistemáticas: "Feed-Target", "Feed-Check" y "Feed-Path". Esto permite priorizar la información visual, diagnosticar las causas de los fallos y establecer acciones correctivas. A diferencia de los enfoques existentes que se basan en la recuperación redundante, REFINE optimiza la recuperación de retroalimentación estructurada para mejorar la eficiencia de la inferencia, el uso de tokens y la escalabilidad. Los resultados experimentales demuestran que REFINE mejora la velocidad, reduce los costes computacionales y logra una generalización exitosa.