En este artículo, proponemos EpicPRM, un nuevo marco de trabajo para mejorar la capacidad de inferencia matemática de los modelos de lenguaje a gran escala (LLM). Los métodos existentes de generación de datos para el aprendizaje de modelos de recompensa supervisados por procesos (PRM) presentan limitaciones, como su alto coste o baja calidad, como la anotación manual o la estimación de Monte Carlo paso a paso. EpicPRM cuantifica la contribución de cada paso intermedio de inferencia y lo anota, mejorando la precisión y la eficiencia de la anotación mediante un algoritmo de búsqueda binaria adaptativa. Gracias a esto, construimos eficientemente un conjunto de datos de aprendizaje supervisado por procesos de alta calidad, Epic50k, compuesto por 50 000 pasos intermedios anotados. Los PRM entrenados con Epic50k muestran un rendimiento significativamente mejor que aquellos que utilizan conjuntos de datos públicos existentes. Epic50k está disponible en GitHub.