Dans cet article, nous proposons AutoRefine, un nouveau cadre post-apprentissage basé sur l'apprentissage par renforcement pour améliorer la capacité d'inférence des modèles de langage à grande échelle (MLH). Pour résoudre le problème de la récupération d'informations non pertinentes ou bruitées par les méthodes d'inférence augmentées existantes, AutoRefine introduit un nouveau paradigme appelé « récupération-affinement-pensée ». Le modèle filtre, extrait et organise les preuves de manière itérative grâce à une étape explicite d'affinement des connaissances entre les appels de récupération successifs, avant de générer une réponse. De plus, nous intégrons des récompenses personnalisées spécifiques à la récupération, ainsi que des récompenses pour la précision des réponses, grâce à l'optimisation des politiques relatives au groupe. Les résultats expérimentaux obtenus sur des tests de questions-réponses à saut unique et à sauts multiples démontrent qu'AutoRefine surpasse significativement les méthodes existantes, notamment dans les scénarios d'inférence à sauts multiples complexes. Une analyse détaillée démontre qu'AutoRefine effectue des récupérations fréquentes et de haute qualité et synthétise efficacement les preuves.