Cet article présente la première étude systématique de la quantification bas débit des modèles de langage à grande échelle basés sur la diffusion (dLLM). Contrairement aux LLM autorégressifs (AR), les dLLM utilisent des stratégies de décodage basées sur l'attention totale et le débruitage. Cependant, la taille importante de leurs paramètres et leurs besoins élevés en ressources entravent leur déploiement sur les périphériques. Cette étude met en évidence le problème des valeurs aberrantes d'activation dans les dLLM et, à l'aide de techniques PTQ de pointe, réalise une évaluation complète de divers aspects, notamment la largeur de bit, la méthode de quantification, le type de tâche et le type de modèle. Grâce à cela, nous souhaitons fournir des informations pratiques sur le comportement de quantification des dLLM et jeter les bases d'un déploiement efficace des dLLM.