每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Jet-Nemotron:具有后神经架构搜索的高效语言模型

Created by
  • Haebom

作者

顾玉贤、胡庆浩、尚扬、奚浩成、陈俊宇、韩松、蔡涵

Jet-Nemotron:高速语言模型

大纲

本文介绍了一种混合架构语言模型 Jet-Nemotron,该模型的准确率可与领先的全注意力模型相媲美甚至更高,同时显著提升了生成吞吐量。Jet-Nemotron 采用后神经架构搜索 (PostNAS) 开发,这是一种新型神经网络架构探索流程,可实现高效的模型设计。PostNAS 固定预训练全注意力模型的 MLP 权重,并高效探索注意力模块设计。该流程包含四个主要组件:(1) 最优全注意力层布局和剪枝训练,(2) 线性注意力模块选择,(3) 新型注意力模块设计,以及 (4) 硬件感知的超参数搜索。Jet-Nemotron-2B 模型的准确率可与 Qwen3、Qwen2.5、Gemma3 和 Llama3.2 相媲美甚至更高,同时生成吞吐量提升高达 53.6 倍,字典填充速度提升高达 6.1 倍。与最先进的 MoE 全注意力模型(如 DeepSeek-V3-Small 和 Moonlight)相比,它在 MMLU 和 MMLU-Pro 中也实现了更高的准确率。

Takeaways, Limitations

Takeaways:
利用 PostNAS 开发一种新的混合架构语言模型 Jet-Nemotron。
与现有的全注意力模型相比,准确率更高,生成吞吐量显著提高。
尽管它是一个小模型,但它的性能比大型 MoE 模型更好。
Limitations:
论文中没有具体说明具体的模型架构和 PostNAS 管道的细节。
当与其他模型进行比较性能时,缺乏有关所用基准类型和具体设置的信息。
需要进一步研究来确定该模型的实际适用性和可扩展性。
👍