Cet article présente une technique de quantification permettant de construire efficacement des modèles de langage à grande échelle (DLLM) basés sur la diffusion. Les techniques de quantification post-apprentissage (PTQ) existantes, appliquées aux DLLM, souffrent d'une dégradation de la précision et de la généralisation en raison de conflits avec les mécanismes fondamentaux des DLLM, tels que le masquage dynamique, la génération itérative et l'attention bidirectionnelle. Par conséquent, dans cet article, nous proposons le cadre DLLMQuant, qui comprend trois nouvelles techniques : TMAS, une technique de compensation prenant en compte les facteurs temporels et de masque ; IA-AQ, qui alloue dynamiquement des ressources de quantification en exploitant le signal d'interaction de l'attention bidirectionnelle ; et CGQ, qui utilise les états de masque et les scores de jetons pour la correction des erreurs. Les résultats expérimentaux démontrent que DLLMQuant permet d'obtenir des améliorations significatives des performances et une efficacité accrue.