低秩自适应 (LoRA) 是一种高效的框架,用于微调大规模基础模型,并广泛用于数据驱动的 LLM 定制。然而,在多轮次环境中切换 LoRA 会导致效率低下,因为必须使用 LoRA 权重重新计算整个轮次历史记录的键值缓存。为了解决这个问题,本文提出了激活 LoRA (aLoRA),这是一种适配器架构,在调用 aLoRA 后,它仅针对序列中的 token 调整权重。这使得 aLoRA 能够利用输入字符串的底层模型键值缓存,使其能够在链内立即激活,而无需重新计算之前的键值。这允许构建称为“内联函数”的专用模型,这些模型可以被调用来针对特定的输入链或对话片段执行定义明确的任务。通过训练基于 aLoRA 的内联函数模型,我们实现了与标准 LoRA 相当的准确率,同时显著提高了推理效率。aLoRA 的实现已贡献给 Huggingface PEFT 库。