Este artículo aborda el creciente interés en formulaciones de recompensa promedio para el aprendizaje por refuerzo (AR) que puedan resolver problemas a largo plazo sin descuento. En entornos de descuento, se han desarrollado algoritmos de regulación de entropía, que han demostrado un rendimiento superior al de los métodos deterministas. Sin embargo, no se han desarrollado algoritmos de AR profundos que aborden objetivos de recompensa promedio de regulación de entropía. Para abordar esta deficiencia, este artículo propone un algoritmo actor-crítico suave de recompensa promedio. Validamos nuestro método comparándolo con algoritmos de recompensa promedio existentes en parámetros de referencia de AR estándar, logrando un rendimiento superior para el criterio de recompensa promedio.