每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

关于任务向量和梯度

Created by
  • Haebom

作者

Luca Zhou、Daniele Solombrino、Donato Crisostomi、Maria Sofia Bucarelli、Giuseppe Alessio D'Inverno、Fabrizio Silvestri、Emanuele Rodol

大纲

任务算法作为一种简单而强大的技术,可以将多个微调模型组合成一个模型,但其有效性一直缺乏清晰的理论解释。本文通过建立任务向量与任务损失函数梯度之间的关系,为任务算法提供了严谨的理论基础。我们证明,在标准梯度下降法下,微调一个周期生成的任务向量恰好等于学习率缩放后的损失函数负梯度。在多周期设置下,我们利用前馈网络的显式有界二次误差项,证明了该方程近似成立。

Takeaways, Limitations

任务向量大致等于学习率缩放的损失的负梯度。
合并在单个时期内微调的模型表现出与合并完全融合模型相似的性能。
我们将任务算术重新定义为一种近似多任务学习的形式,为其有效性提供了明确的证据。
早期学习动态在模型合并中起着至关重要的作用。
理论分析仅限于明确限制前馈网络的二阶误差项。
👍