每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

PATCH:可学习的 LLM 的 Tile 级混合稀疏性

Created by
  • Haebom

作者

尤尼斯·胡里、穆罕默德·莫扎法里、玛丽亚姆·梅里·德纳维

大纲

为了解决部署大规模语言模型 (LLM) 所带来的内存和计算开销过大的问题,本文提出了一种混合稀疏性框架 PATCH。PATCH 将权重矩阵划分为多个块,并通过可学习的掩码选择机制为每个块分配密集或 2:4 稀疏性。这种设计巧妙地平衡了准确率和加速比,并支持跨层非均匀稀疏性,从而提升了模型整体质量。在参数规模从 5 亿到 8 亿的模型中,PATCH 实现了显著的加速比,同时缩小了与密集模型准确率的差距。例如,在 LLaMA-2 7B 模型上,使用 A6000 GPU,PATCH 比最先进的 2:4 剪枝方法 MaskLLM 实现了 1.18 到 1.38 倍的端到端加速比,同时准确率提高了 0.37% 到 2.96%。

Takeaways, Limitations

Takeaways:
混合稀疏性框架在准确性和加速度之间提供了灵活的权衡。
2:4 实现比稀疏性更好的模型质量。
提供一种有效的 GPU 加速方法。
它显示出各种模型尺寸的一致性能改进。
Limitations:
与 PATCH 的具体实施细节相关的潜在复杂性。
与其他修剪技术的比较,特别是在特定场景下的性能比较可能有所欠缺。
缺乏有关详细实验设置和硬件配置的信息。
👍