每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

MoQE:通过混合量化专家提高量化模型性能

Created by
  • Haebom

作者

张金浩、张云泉、张博阳、刘泽宇、程大宁

大纲

MoQE 提出了一种基于混合专家 (MoE) 架构的量化推理框架,旨在提升模型效率并降低部署成本。MoQE 将多种量化变体组合成专门的“量化专家”,并根据输入数据的特性动态地将其路由到最合适的专家。在 ImageNet、WikiText、C4 和 OpenWebText 数据集上使用 ResNet、LLaMA 和 Qwen 模型进行的实验表明,MoQE 实现了与最先进的量化模型相当的性能,且推理延迟没有显著增加。

Takeaways,Limitations

Takeaways:
我们将MoE架构应用于量化,解决了单一量化模型的性能下降问题。
我们提出了一种专为 CV 和 NLP 任务设计的轻量级、结构感知路由器模型。
与 SOTA 量化模型相比,它表现出相似的性能。
在不显著增加推理延迟的情况下提高性能。
Limitations:
论文中没有直接提及Limitations。
👍