En este artículo, proponemos DSAC-D, un algoritmo distribuido de crítica de actores suaves que utiliza la política de difusión para resolver el problema del sesgo en la estimación de la función de valor y la representación de políticas multimodales. A diferencia de los algoritmos de aprendizaje por refuerzo existentes que modelan distribuciones de valor mediante distribuciones unimodales (p. ej., distribuciones gaussianas), DSAC-D construye una red de difusión de valor que caracteriza con precisión las distribuciones de valor multimodales. Esto es posible mediante la generación de un conjunto de muestras de recompensa mediante retromuestreo utilizando un modelo de difusión. Mediante la introducción de la entropía de la política y las funciones de distribución de valor, construimos un marco de iteración de la política de distribución multimodal que converge a la política óptima y derivamos un algoritmo de aprendizaje por refuerzo distribuido basado en la difusión dual de la red de valor y la red de políticas. Los resultados de las simulaciones de MuJoCo y las pruebas con vehículos reales muestran que DSAC-D no solo aprende políticas multimodales, sino que también mejora la recompensa promedio en más de un 10 % en comparación con los algoritmos existentes, caracteriza con precisión las distribuciones multimodales y expresa trayectorias multimodales de diversos estilos de conducción.