随着大规模语言模型 (LLM) 训练规模的扩大,训练稳定性问题日益凸显,亟需训练中断、高效的错误诊断和有效的容错机制。本文提出了 ByteRobust,一个用于稳定 LLM 训练的大规模 GPU 基础设施管理系统。ByteRobust 充分利用 LLM 训练过程的特性,优先考虑错误检测和恢复,并通过数据驱动的方法实现高容错能力以及快速的错误识别和定位。ByteRobust 部署在一个拥有超过 20 万块 GPU 的生产级 GPU 平台上,在 9,600 块 GPU 上进行了为期三个月的训练,实现了 97% 的 ETTR。