Este artículo presenta una técnica de cuantificación para construir eficientemente modelos lingüísticos a gran escala (DLLM) basados en difusión. Las técnicas existentes de cuantificación post-entrenamiento (PTQ), al aplicarse a DLLM, sufren una degradación de la precisión y la generalización debido a conflictos con mecanismos centrales de DLLM, como el enmascaramiento dinámico, la generación iterativa y la atención bidireccional. Por lo tanto, en este artículo, proponemos el marco DLLMQuant, que incluye tres técnicas novedosas: TMAS, una técnica de compensación que considera factores temporales y de máscara; IA-AQ, que asigna dinámicamente recursos de cuantificación aprovechando la señal de interacción de la atención bidireccional; y CGQ, que utiliza estados de máscara y puntuaciones de token para la corrección de errores. Los resultados experimentales demuestran que DLLMQuant logra mejoras significativas en el rendimiento y la eficiencia.