本文介绍了一种基于梯度的早期停止方法 GradES,旨在提升大规模 Transformer 模型的训练速度。GrES 跟踪 Transformer 内部每个组件(注意力投影和前馈层矩阵)的梯度变化,以解决现有早期停止方法(用于监控整个模型的验证损失)的计算成本问题。当特定矩阵的梯度变化低于收敛阈值时,GrES 停止更新该矩阵,从而消除了不必要的验证步骤并防止过拟合。结果,GrES 在语言任务上的平均准确率提升了 1.2%,在多模态基准测试上的平均准确率提升了 3.88%,同时将训练时间缩短了 1.57 至 7.22 倍。