この論文は、拡散ベースの大規模言語モデル(DLLM)の効率的な構築のための量子化技術を提示します。従来のポストトレーニング量子化(PTQ)技術は、DLLMに適用すると精度の低下と一般化のパフォーマンス低下の問題を引き起こします。そこで、本論文では時間とマスク要素を考慮する補正技術であるTMAS、双方向アテンションの相互作用信号を活用して量子化リソースを動的に割り当てるIA-AQ、マスク状態とトークンスコアを誤差補正に活用するCGQの3つの新しい技術を含むDLLMQuantフレームワークを提案します。実験の結果、DLLMQuant は、効率の向上とともに、大幅なパフォーマンスの向上を達成することを示しています。