训练大规模语言模型 (LLM) 的高昂计算成本对创新构成了重大障碍。虽然 FP8 训练提供了一种颇具前景的解决方案,能够显著提升理论上的效率,但缺乏全面的开源训练方案阻碍了其广泛应用。本文提出了一种端到端的 FP8 训练方案,无缝集成了持续预训练和监督微调。它采用细粒度的混合粒度量化策略,在保持数值保真度的同时,最大限度地提高了计算效率。大量实验(包括在 1600 亿个词条的语料库上对模型进行持续预训练)表明,该方案不仅高度稳健,而且基本无损。它在各种推理基准测试中都达到了与 BF16 基线相当的性能。这得益于显著的效率提升,包括训练时间缩短高达 22%,峰值内存使用量降低 14%,吞吐量提升 19%。