为了解决部署大规模语言模型 (LLM) 所带来的内存和计算开销过大的问题,本文提出了一种混合稀疏性框架 PATCH。PATCH 将权重矩阵划分为多个块,并通过可学习的掩码选择机制为每个块分配密集或 2:4 稀疏性。这种设计巧妙地平衡了准确率和加速比,并支持跨层非均匀稀疏性,从而提升了模型整体质量。在参数规模从 5 亿到 8 亿的模型中,PATCH 实现了显著的加速比,同时缩小了与密集模型准确率的差距。例如,在 LLaMA-2 7B 模型上,使用 A6000 GPU,PATCH 比最先进的 2:4 剪枝方法 MaskLLM 实现了 1.18 到 1.38 倍的端到端加速比,同时准确率提高了 0.37% 到 2.96%。