由于用于长序列推理的键值 (KV) 缓存规模不断增大,大规模语言模型 (LLM) 面临着效率挑战。本文重点介绍了现有缓存驱逐方法的局限性,这些方法将压缩预算统一分配给所有注意力头,而没有考虑它们独特的注意力模式。我们提出了一种自适应预算分配的优化策略,即建立驱逐前后注意力输出之间损失的理论上限。据此,我们提出了一种针对特定注意力头的自适应预算分配策略 Ada-KV。Ada-KV 可与现有的缓存驱逐方法无缝集成,并通过在 13 个 Ruler 数据集和 16 个 LongBench 数据集上进行的大量评估,证明了其比现有方法具有显著的质量改进。