Cet article propose SegQuant, un nouveau cadre de quantification permettant de réduire le coût de calcul des modèles de diffusion. Relevant les défis des méthodes de quantification post-apprentissage (PTQ) existantes, qui peinent à généraliser en raison de la spécificité de leur structure, SegQuant combine la stratégie SegLinear, qui capture la sémantique structurelle et l'hétérogénéité spatiale, avec la technique DualScale, qui préserve l'activation asymétrique polaire, pour atteindre des performances élevées et une applicabilité à un large éventail de modèles. Il est applicable à un large éventail de modèles, y compris les modèles de diffusion basés sur Transformer, et assure la compatibilité avec les principaux outils de déploiement.