Cet article aborde le problème d'allocation des ressources visant à minimiser le temps de cycle et à améliorer l'efficacité des processus métier. Nous soulignons les limites des méthodes existantes basées sur l'apprentissage par renforcement profond (DRL), qui sont inadaptées aux environnements métier dynamiques et peuvent apprendre des politiques sous-optimales en raison d'inadéquations entre les fonctions objectif et de récompense. Pour remédier à ces limites, nous proposons un algorithme DRL basé sur le déploiement et une fonction de récompense reflétant directement l'objectif de minimisation du temps de cycle. L'algorithme proposé améliore les politiques de manière itérative en évaluant les chemins d'exécution en fonction de diverses actions, éliminant ainsi la nécessité de concevoir manuellement une fonction de récompense. Les résultats expérimentaux démontrent que la méthode proposée apprend des politiques optimales dans six scénarios où des politiques optimales peuvent être calculées, et qu'elle est aussi performante, voire supérieure, que les meilleures méthodes heuristiques existantes dans des processus métier à échelle réaliste.