每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

GradES:基于梯度的早期停止方法显著加快 Transformer 的训练速度

Created by
  • Haebom

作者

温启福、曾曦、周子涵、刘帅军、Mehdi Hosseinzadeh、苏宁欣、Reza Rawassizadeh

大纲

本文介绍了一种基于梯度的早期停止方法 GradES,旨在提升大规模 Transformer 模型的训练速度。GrES 跟踪 Transformer 内部每个组件(注意力投影和前馈层矩阵)的梯度变化,以解决现有早期停止方法(用于监控整个模型的验证损失)的计算成本问题。当特定矩阵的梯度变化低于收敛阈值时,GrES 停止更新该矩阵,从而消除了不必要的验证步骤并防止过拟合。结果,GrES 在语言任务上的平均准确率提升了 1.2%,在多模态基准测试上的平均准确率提升了 3.88%,同时将训练时间缩短了 1.57 至 7.22 倍。

Takeaways, Limitations

Takeaways:
显著提高Transformer模型的学习速度。
通过防止过度拟合来提高泛化性能。
它提出了一种比现有的提前终止方法更有效的计算方法。
它在语言和多模式任务中均表现有效。
Limitations:
论文中没有具体说明收敛阈值($\Tau$)的设置方法。
需要进一步研究来确定如何将 GradES 的性能应用于其他变压器架构和任务。
应考虑本文中使用的实验设置(模型大小、数据集等)的多样性。
👍