Cet article propose un modèle de compensation de processus fournissant un retour d'information étape par étape pour résoudre le problème de la supervision de la validité de l'inférence de niveau intermédiaire dans les modèles utilisant des stratégies d'inférence multi-étapes. Les modèles de compensation de processus existants manquent d'explications et reposent sur un apprentissage supervisé utilisant des jeux de données statiques, ce qui limite leur généralisation (T5509). Dans cet article, nous redéfinissons la modélisation de la compensation étape par étape comme une tâche d'inférence plutôt que comme une tâche de classification, et proposons un juge génératif qui infère les étapes d'inférence d'un modèle de politique. Le modèle proposé, StepWiser, est entraîné par apprentissage par renforcement à partir des résultats relatifs des déploiements. Il démontre une précision de jugement de niveau intermédiaire améliorée, une modélisation de politique améliorée pendant l'entraînement et une recherche en temps d'inférence améliorée par rapport aux méthodes existantes.