在众多用于降低大型语言模型 (LLM) 部署成本的量化技术中,为了解决后处理量化 (PTQ) 的局限性以及量化感知训练 (QAT) 的高内存开销,我们提出了一种基于零阶优化的 QAT 框架 ZeroQAT。ZeroQAT 消除了反向传播,从而降低了计算和内存开销,同时保留了端到端优化的优势。此外,我们还引入了 ZeroQAT 的轻量级版本用于量化微调,进一步降低了内存占用。实验结果表明,ZeroQAT 的性能优于领先的 PTQ 和基于 QAT 的模型,同时所需的内存显著减少。例如,它可以在单个 8GB GPU 上微调 13 字节的模型,在 OnePlus 12 智能手机上微调 6.7 字节的模型。