DeepSeek 提出的多头潜在注意力 (MLA) 是一种创新架构,它将键值 (KV) 缓存压缩为潜在向量,从而实现高效且经济的推理。本文提出了 MHA2MLA,这是首个从 MHA 过渡到 MLA 的数据高效微调方法。MHA2MLA 结合了部分 RoPE 和低秩近似,即使在小数据集上也能通过基于预训练模型参数的联合 SVD 近似恢复性能。这降低了推理成本,并支持与 KV 缓存量化等压缩技术集成。对于 Llama2-7B 模型,我们将 KV 缓存大小减少了 92.19%,同时 LongBench 性能仅降低了 0.5%。