Este artículo propone un modelo de compensación de procesos que proporciona retroalimentación paso a paso para abordar el problema de supervisar la validez de la inferencia de nivel intermedio en modelos que utilizan estrategias de inferencia de múltiples pasos. Los modelos de compensación de procesos existentes carecen de explicaciones y se basan en el aprendizaje supervisado con conjuntos de datos estáticos, lo que resulta en una generalización limitada (T25782). En este artículo, replanteamos el modelado de compensación paso a paso como una tarea de inferencia en lugar de una tarea de clasificación, y proponemos un juez generativo que infiere los pasos de inferencia de un modelo de políticas. El modelo propuesto, StepWiser, se entrena mediante aprendizaje por refuerzo utilizando los resultados relativos de los despliegues, y demuestra una mayor precisión en el juicio de nivel intermedio, un mejor modelado de políticas durante el entrenamiento y una mejor búsqueda en tiempo de inferencia en comparación con los métodos existentes.