本文分析了低比特权重量化显著降低大规模语言模型 (LLM) 内存占用,但对某些样本造成不成比例影响的现象。我们分析了大小从 7 到 70 比特的 LLM,并应用了各种 3 比特和 4 比特量化方法。我们发现,50 对方法的量化误差在 FineWeb 样本上表现出很强的相关性(平均 0.82)。此外,我们证明了全精度模型的残差流大小可以指示未来的量化误差。我们假设残差流大小与误差放大和跨层累积之间存在关联。利用 LLM 定位技术、提前终止和活动块,我们表明,误差较大的样本依赖于后续层中精确的残差激活,并且多层感知器 (MLP) 门的输出在维持困惑度方面起着至关重要的作用。总而言之,本研究确定了某些样本出现较大量化误差的原因,以及维持性能的最重要模型组件。