每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

为什么某些输入会破坏低位 LLM 量化?

Created by
  • Haebom

作者

张庭云、张穆如、杰西·托马森、罗宾·贾

大纲

本文分析了低比特权重量化显著降低大规模语言模型 (LLM) 内存占用,但对某些样本造成不成比例影响的现象。我们分析了大小从 7 到 70 比特的 LLM,并应用了各种 3 比特和 4 比特量化方法。我们发现,50 对方法的量化误差在 FineWeb 样本上表现出很强的相关性(平均 0.82)。此外,我们证明了全精度模型的残差流大小可以指示未来的量化误差。我们假设残差流大小与误差放大和跨层累积之间存在关联。利用 LLM 定位技术、提前终止和活动块,我们表明,误差较大的样本依赖于后续层中精确的残差激活,并且多层感知器 (MLP) 门的输出在维持困惑度方面起着至关重要的作用。总而言之,本研究确定了某些样本出现较大量化误差的原因,以及维持性能的最重要模型组件。

Takeaways, Limitations

Takeaways:
我们提出了低位量化中发生的错误的可预测性,并确定了错误发生的原因。
了解 LLM 特定层和组件的重要性有助于制定有效的量化策略。
我们提出了利用残差流大小来开发量化误差预测和缓解策略的可能性。
我们建议通过 LLM 定位、提前终止和主动补丁等技术来减轻量化误差。
Limitations:
需要进一步验证分析中使用的数据集(FineWeb)的普遍性。
所提出的假设(残差流大小和误差放大/累积关系)的理论基础需要加强。
需要对不同的 LLM 架构和量化方法进行进一步的实验。
需要进一步的实验验证来确定所提出的错误缓解技术的实际性能改进。
👍