每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

激活的 LoRA:针对内在函数进行微调的 LLM

Created by
  • Haebom

作者

克里斯蒂安·格林内瓦尔德、路易斯·拉斯特拉斯、托马斯·帕内尔、Vraj Shah、卢西安·波帕、朱利奥·齐佐、丘拉卡·古纳塞卡拉、安布里什·拉瓦特、大卫·考克斯

大纲

低秩自适应 (LoRA) 是一种高效的框架,用于微调大规模基础模型,并广泛用于数据驱动的 LLM 定制。然而,在多轮次环境中切换 LoRA 会导致效率低下,因为必须使用 LoRA 权重重新计算整个轮次历史记录的键值缓存。为了解决这个问题,本文提出了激活 LoRA (aLoRA),这是一种适配器架构,在调用 aLoRA 后,它仅针对序列中的 token 调整权重。这使得 aLoRA 能够利用输入字符串的底层模型键值缓存,使其能够在链内立即激活,而无需重新计算之前的键值。这允许构建称为“内联函数”的专用模型,这些模型可以被调用来针对特定的输入链或对话片段执行定义明确的任务。通过训练基于 aLoRA 的内联函数模型,我们实现了与标准 LoRA 相当的准确率,同时显著提高了推理效率。aLoRA 的实现已贡献给 Huggingface PEFT 库。

Takeaways, Limitations

Takeaways:
提出一种 ALoRA 架构来解决 LoRA 在多转弯环境中的效率低下问题。
使用 ALoRA 提高推理效率,无需重新计算 KV 缓存即可立即激活。
建议建立“内在”模型的可能性
证明其准确性和推理效率与标准 LoRA 相当
为 Huggingface PEFT 库贡献 aLoRA 实现
Limitations:
缺乏关于具体实验结果和性能比较的详细信息(因为这是一篇论文摘要)
没有提及 ALoRA 的潜在缺点或局限性。
👍