每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

迈向经济推理:在任何基于 Transformer 的 LLM 中启用 DeepSeek 的多头潜在注意力

Created by
  • Haebom

作者

季涛、郭斌、吴元斌、郭启鹏、沉力行、陈展、邱西鹏、张奇、桂涛

大纲

DeepSeek 提出的多头潜在注意力 (MLA) 是一种创新架构,它将键值 (KV) 缓存压缩为潜在向量,从而实现高效且经济的推理。本文提出了 MHA2MLA,这是首个从 MHA 过渡到 MLA 的数据高效微调方法。MHA2MLA 结合了部分 RoPE 和低秩近似,即使在小数据集上也能通过基于预训练模型参数的联合 SVD 近似恢复性能。这降低了推理成本,并支持与 KV 缓存量化等压缩技术集成。对于 Llama2-7B 模型,我们将 KV 缓存大小减少了 92.19%,同时 LongBench 性能仅降低了 0.5%。

Takeaways, Limitations

Takeaways:
提出了一种数据高效的微调方法,以实现从 MHA 到 MLA 的有效转换。
即使数据集较小(0.3% 到 0.6%),性能也有可能恢复。
推理成本降低并与 KV 缓存量化相结合。
在 Llama2-7B 模型上,将性能下降降至最低,同时将 KV 缓存大小减少 92.19%。
Limitations:
需要进一步研究来确定本文提出的方法的普遍性及其对其他 LLM 架构的适用性。
需要在各种数据集和工作环境中对 MHA2MLA 进行性能验证。
需要进一步研究来确定和调整所提出方法的最佳参数。
👍