每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Ada-KV:通过自适应预算分配优化 KV 缓存驱逐,实现高效的 LLM 推理

Created by
  • Haebom

作者

冯元、吕俊林、曹玉琨、谢曦克、S. Kevin Zhou

大纲

由于用于长序列推理的键值 (KV) 缓存规模不断增大,大规模语言模型 (LLM) 面临着效率挑战。本文重点介绍了现有缓存驱逐方法的局限性,这些方法将压缩预算统一分配给所有注意力头,而没有考虑它们独特的注意力模式。我们提出了一种自适应预算分配的优化策略,即建立驱逐前后注意力输出之间损失的理论上限。据此,我们提出了一种针对特定注意力头的自适应预算分配策略 Ada-KV。Ada-KV 可与现有的缓存驱逐方法无缝集成,并通过在 13 个 Ruler 数据集和 16 个 LongBench 数据集上进行的大量评估,证明了其比现有方法具有显著的质量改进。

Takeaways,Limitations

Takeaways:
我们提出了一种特定于头部的自适应预算分配策略 Ada-KV,以提高现有缓存驱逐方法的质量。
我们通过设置理论损失上限来指导缓存驱逐方法的优化。
我们通过在各种数据集上进行大量实验来证明 Ada-KV 的性能。
它以即插即用的方式与现有的缓存删除方法集成。
Limitations:
论文中没有明确提及具体的 Limitations。
可能需要对额外的数据集和模型进行实验。
可能需要对 Ada-KV 的复杂性和计算成本进行分析。
👍