Cet article se concentre sur les workflows d'agents, où plusieurs agents d'IA effectuent des tâches complexes (par exemple, raisonnement, planification, etc.). Les performances de ces workflows dépendent fortement des invites qui guident le rôle de chaque agent, et des invites incorrectes peuvent dégrader les performances globales du système. Pour résoudre ce problème, nous présentons une nouvelle méthode d'optimisation du temps d'inférence, ProRefine. ProRefine améliore dynamiquement les invites pour les tâches d'inférence multi-étapes en générant et en appliquant un retour textuel via une boucle d'agents LLM, sans nécessiter de formation supplémentaire ni d'étiquetage correct. Sur cinq jeux de données de référence d'inférence mathématique, ProRefine surpasse de 3 à 37 % un modèle de référence de chaîne de pensée à zéro coup, et démontre également son efficacité à élever les performances de petits modèles à celles de modèles plus grands. Cela suggère son potentiel pour contribuer à la construction de systèmes d'IA hybrides rentables et puissants et à l'amélioration de l'accessibilité de l'IA haute performance.