每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

梯度符号掩蔽用于跨预训练模型的任务向量传输

Created by
  • Haebom

作者

菲利波·里纳尔迪、阿尼洛·帕纳里洛、贾科莫·萨利奇、刘丰源、马可·西科内、安杰洛·波雷洛、西蒙娜·卡尔德拉拉

大纲

本文提出了一种在新的 Foundation 模型版本中复用先前训练任务的有效方法。为了解决复用现有参数变化(任务向量)时模型间参数空间不匹配的问题,我们重点研究了新模型的梯度代码结构。我们提出了一种名为 GradFix 的新方法,它仅使用少量带标签样本即可近似理想的梯度代码结构,并以此进行知识迁移。GradFix 通过在目标模型中计算少量梯度并屏蔽源任务向量来进行自适应,无需进行额外的微调。通过生成与目标损失梯度局部对齐的更新,这可以有效地将任务向量重新定位到新的预训练模型上。理论上,我们的方法可以保证一阶下降,并在视觉和语言基准测试中展现出优于现有方法的性能提升。

Takeaways,Limitations

Takeaways:
提高基础模型发布之间的知识传递效率:减少重复微调的需要,节省时间和资源。
小样本学习:即使使用少量数据也能实现高性能。
无需额外的微调:快速高效的知识传递。
理论保证:通过一阶下降保证,保证方法的稳定性和可靠性。
在各种基准测试中均表现出色:在视觉和语言领域持续提升性能。
Limitations:
实验数据和模型缺乏多样性:需要在更广泛的数据和模型上进行验证。
复杂模型结构中的可扩展性:需要进一步研究以确定 GradFix 的性能是否在复杂模型结构中保持。
梯度码结构的近似:理想的梯度码结构可能无法完美实现。
最佳超参数设置:需要进一步研究超参数设置以最大化 GradFix 的性能。
👍