本文提出了一种新颖的剪枝技术 COMPACT,以提高大规模语言模型 (LLM) 的效率。COMPACT (i) 通过移除稀有词来缩小嵌入/语言模型 (LM) 的头部层;(ii) 使用常见的 token 加权激活函数来剪枝前馈网络 (FFN) 的中间通道。该方法旨在在保持标准 Transformer 架构的同时,降低内存使用量、延迟和成本。在 Qwen、LLaMA 和 Gemma 模型 (0.5B-70B) 上的实验结果表明,COMPACT 显著减少了参数数量、GPU 内存和延迟,同时保持了最佳性能。