每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Kron-LoRA:用于可扩展、可持续微调的混合 Kronecker-LoRA 适配器

Created by
  • Haebom

作者

沉一新

大纲

本文提出了一种跨多任务微调大规模预训练语言模型的方法,该方法使用一种兼具参数效率和表达能力的适配器。我们提出了一种新型混合适配器 Kron-LoRA,它将克罗内克分解与传统的低秩 LoRA 压缩相结合。Kron-LoRA 使用的参数比标准 LoRA 减少了多达四倍,同时保持了相似的表达能力。在针对 DistilBERT、Mistral-7B、LLaMA-2-7B 和 LLaMA-3-8B 的八个基准测试上进行的实验表明,Kron-LoRA 的性能与 LoRA 基线模型相当甚至更佳,内存占用更低,速度开销仅为 5-8%。即使进行顺序微调,它也能实现具有竞争力的跨任务迁移性能,同时仅使用适配器参数的四分之一。因此,Kron-LoRA 为大规模语言模型的多任务适配提供了一种可扩展且可持续的解决方案。

Takeaways,Limitations

Takeaways:
Kron-LoRA 实现了类似的性能,但参数比传统 LoRA 少 4 倍,从而实现了参数高效的微调。
与 LoRA 相比,它在各种模型和基准上都表现出了有竞争力的性能。
它在顺序微调方面也非常有效,并支持资源高效的多任务适应。
我们为大规模语言模型的可持续多任务适应提供了实用的解决方案。
Limitations:
速度开销为 5-8%。
需要进一步研究来确定所提出的实验结果是否可以推广到所有类型的模型和任务。
我们不能排除 Kron-LoRA 的性能改进偏向于特定任务或模型的可能性。
👍