Este artículo presenta el primer estudio sistemático de cuantificación de bajo número de bits de modelos de lenguaje a gran escala basados en difusión (dLLM). A diferencia de los LLM autorregresivos (AR), los dLLM utilizan estrategias de decodificación basadas en atención completa y eliminación de ruido. Sin embargo, su gran tamaño de parámetros y la alta demanda de recursos dificultan su implementación en dispositivos de borde. Este estudio revela el problema de los valores atípicos en los valores de activación de los dLLM y, mediante técnicas PTQ de vanguardia, realiza una evaluación exhaustiva en diversos aspectos, como el ancho de bits, el método de cuantificación, el tipo de tarea y el tipo de modelo. Con esto, buscamos proporcionar información práctica sobre el comportamiento de cuantificación de los dLLM y sentar las bases para una implementación eficiente de los dLLM.