每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

COMPACT:跨通道和令牌的通用令牌优化模型修剪

Created by
  • Haebom

作者

郭尤金、尹文鹏

COMPACT:高效语言模型的联合剪枝

大纲

本文提出了一种新颖的剪枝技术 COMPACT,以提高大规模语言模型 (LLM) 的效率。COMPACT (i) 通过移除稀有词来缩小嵌入/语言模型 (LM) 的头部层;(ii) 使用常见的 token 加权激活函数来剪枝前馈网络 (FFN) 的中间通道。该方法旨在在保持标准 Transformer 架构的同时,降低内存使用量、延迟和成本。在 Qwen、LLaMA 和 Gemma 模型 (0.5B-70B) 上的实验结果表明,COMPACT 显著减少了参数数量、GPU 内存和延迟,同时保持了最佳性能。

Takeaways, Limitations

Takeaways:
保持标准变压器结构以便于部署。
通过平衡词汇和 FFN 修剪灵活适应规模。
实现有竞争力的修剪时间、节省内存并提高吞吐量。
在一系列模型(0.5B-70B)中实现最先进的性能。
Limitations:
论文中没有具体说明 Limitations。(然而,与所有剪枝技术一样,在不降低性能的情况下,如何积极地进行剪枝始终是很重要的。)
👍