Cet article propose REFINE (Retrieval-Enhanced Feedback via In-context Neural Error-book), un nouveau cadre d'analyse visant à améliorer la capacité d'inférence des modèles linguistiques multimodaux à grande échelle (MLLM). REFINE privilégie l'apprentissage par les erreurs et fournit un retour d'information structuré via trois requêtes systématiques : « Feed-Target », « Feed-Check » et « Feed-Path ». Cela permet de hiérarchiser les informations visuelles, de diagnostiquer les causes d'échec et de mettre en place des actions correctives. Contrairement aux approches existantes qui reposent sur une récupération redondante, REFINE optimise la récupération du retour d'information structuré afin d'améliorer l'efficacité de l'inférence, l'utilisation des jetons et l'évolutivité. Les résultats expérimentaux démontrent que REFINE améliore la vitesse, réduit les coûts de calcul et permet une généralisation réussie.