En este artículo, proponemos un marco de optimización de recompensas de procesos autoguiado (SPRO) para abordar el alto costo computacional del aprendizaje de refuerzo de procesos (PRL), que ha demostrado un potencial significativo para mejorar la capacidad de inferencia de los modelos de lenguaje a gran escala (LLM), y la falta de un marco teórico unificado para la estimación de ventajas a nivel de proceso. SPRO facilita el RL consciente del proceso mediante dos innovaciones clave: demostrar teóricamente que las recompensas de proceso pueden derivarse del propio modelo de políticas e introducir recompensas de proceso acumulativas bien definidas y la ventaja de paso enmascarado (MSA) para permitir una estimación estricta de la ventaja de acción paso a paso dentro de un grupo de muestreo de indicaciones compartido. Los resultados experimentales muestran que SPRO logra una eficiencia de entrenamiento 3,4 veces mayor y una precisión de prueba un 17,5 % mejor que el GRPO convencional. Además, demostramos suficiente exploración y prevención del hacking de recompensas al reducir la longitud promedio de respuesta en aproximadamente 1/3, manteniendo al mismo tiempo una entropía de política estable y alta durante todo el proceso de entrenamiento. En particular, SPRO es ventajoso para la implementación industrial porque no genera costos computacionales adicionales en comparación con los métodos RL supervisados por resultados como GRPO.