每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

以推理成本进行端到端设备上的 LLM 量化感知训练

Created by
  • Haebom

作者

谭起涛、宋晓英、卢金、李国明、刘军、洪凌子、丁才文、李俊东、翟晓明、黄绍一、牛伟、袁耿

大纲

在众多用于降低大型语言模型 (LLM) 部署成本的量化技术中,为了解决后处理量化 (PTQ) 的局限性以及量化感知训练 (QAT) 的高内存开销,我们提出了一种基于零阶优化的 QAT 框架 ZeroQAT。ZeroQAT 消除了反向传播,从而降低了计算和内存开销,同时保留了端到端优化的优势。此外,我们还引入了 ZeroQAT 的轻量级版本用于量化微调,进一步降低了内存占用。实验结果表明,ZeroQAT 的性能优于领先的 PTQ 和基于 QAT 的模型,同时所需的内存显著减少。例如,它可以在单个 8GB GPU 上微调 13 字节的模型,在 OnePlus 12 智能手机上微调 6.7 字节的模型。

Takeaways,Limitations

Takeaways:
ZeroQAT 无需反向传播即可执行端到端 QAT,即使在内存受限的环境中也能实现 LLM 的量化。
即使在 2-4 位等极低的位宽下,13B 模型也可以在单个 8GB GPU 上进行微调。
我们证明,即使在智能手机等资源受限的环境中,也可以对 LLM 进行微调。
Limitations:
具体的Limitations本文未具体说明。(仅从摘要内容判断)
👍