Este artículo aborda el problema de asignación de recursos para minimizar el tiempo de ciclo y mejorar la eficiencia en los procesos de negocio. Destacamos las limitaciones de los métodos existentes basados en aprendizaje de refuerzo profundo (DRL), que no son adecuados para entornos de negocio dinámicos y pueden aprender políticas subóptimas debido a desajustes entre las funciones objetivo y de recompensa. Para abordar estas limitaciones, proponemos un algoritmo de DRL basado en la implementación y una función de recompensa que refleja directamente el objetivo de minimización del tiempo de ciclo. El algoritmo propuesto mejora iterativamente las políticas mediante la evaluación de las rutas de ejecución en función de diversas acciones, eliminando la necesidad del diseño manual de la función de recompensa. Los resultados experimentales demuestran que el método propuesto aprende políticas óptimas en seis escenarios donde se pueden calcular políticas óptimas y que su rendimiento es igual o superior al de los mejores métodos heurísticos existentes en procesos de negocio a escala real.