每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

COMPACT:跨通道和令牌的通用令牌优化模型修剪

Created by
  • Haebom

作者

郭尤金、尹文鹏

大纲

本文介绍了一种新颖的剪枝技术 COMPACT,旨在提升大规模语言模型 (LLM) 的内存、延迟和服务成本效率。COMPACT 通过收缩稀有词嵌入/语言模型 (LM) 的头部层,并使用通用的标记加权激活函数剪枝 FFN 中间通道,从而在保持标准 Transformer 架构的同时,保持 LLM 和小规模语言模型 (SLM) 的性能。实验结果表明,COMPACT 在 Qwen、LLaMA 和 Gemma 系列模型(0.5B-70B)上实现了最佳性能,同时显著降低了参数、GPU 内存和延迟。

Takeaways, Limitations

Takeaways:
维护标准转换器架构以确保易于部署。
通过词汇和 FFN 修剪之间的平衡来适应规模。
它提供了强大的内存节省功能以及具有竞争力的修剪时间。
在各种模型尺寸(0.5B-70B)中均表现出色。
Limitations:
本文摘要中未包含对__T3331_____的直接引用(您应该阅读整篇论文)。
👍