Este artículo se centra en el aprendizaje de muestreo a partir de distribuciones irregulares complejas en el dominio discreto, mostrando posibles aplicaciones en diversos campos como la física estadística, la inferencia variacional y la optimización combinatoria. Los modelos de difusión discretos convencionales tienen un número limitado de pasos de difusión debido al problema de escalamiento de memoria. En este artículo, proponemos dos nuevos métodos de entrenamiento, que utilizan el teorema del gradiente de políticas y el muestreo de importancia neuronal autonormalizante (SN-NIS), para lograr un entrenamiento eficiente en memoria y resultados de vanguardia en optimización combinatoria no supervisada. Además, mediante la aplicación de SN-NIS y el método Monte Carlo de cadena de Markov neuronal (MCMC), aplicamos el modelo de difusión discreto a problemas de muestreo uniforme por primera vez y demostramos que supera a los enfoques autorregresivos convencionales a través del modelo de referencia de Ising.