Cet article propose AutoRefine, un nouveau cadre d'apprentissage par renforcement pour améliorer les performances d'inférence des modèles de langage à grande échelle (MLH). Pour résoudre le problème des méthodes d'inférence augmentées par la recherche existantes qui récupèrent des informations non pertinentes ou bruitées, AutoRefine introduit un paradigme de « recherche et raffinement pendant la réflexion », réalisant des processus itératifs de recherche et d'affinement. Cela permet au modèle de filtrer, d'extraire et d'organiser les preuves de manière itérative avant de générer une réponse. De plus, il optimise les politiques relatives au groupe en exploitant les récompenses spécifiques à la recherche et la précision des réponses. Les résultats expérimentaux obtenus sur des tests de questions-réponses à saut unique et à sauts multiples démontrent qu'AutoRefine surpasse significativement les méthodes existantes, en particulier dans les scénarios d'inférence à sauts multiples complexes. Une analyse détaillée démontre qu'AutoRefine effectue des recherches fréquentes et de haute qualité et synthétise efficacement les preuves.