本文介绍了一种混合架构语言模型 Jet-Nemotron,该模型的准确率可与领先的全注意力模型相媲美甚至更高,同时显著提升了生成吞吐量。Jet-Nemotron 采用后神经架构搜索 (PostNAS) 开发,这是一种新型神经网络架构探索流程,可实现高效的模型设计。PostNAS 固定预训练全注意力模型的 MLP 权重,并高效探索注意力模块设计。该流程包含四个主要组件:(1) 最优全注意力层布局和剪枝训练,(2) 线性注意力模块选择,(3) 新型注意力模块设计,以及 (4) 硬件感知的超参数搜索。Jet-Nemotron-2B 模型的准确率可与 Qwen3、Qwen2.5、Gemma3 和 Llama3.2 相媲美甚至更高,同时生成吞吐量提升高达 53.6 倍,字典填充速度提升高达 6.1 倍。与最先进的 MoE 全注意力模型(如 DeepSeek-V3-Small 和 Moonlight)相比,它在 MMLU 和 MMLU-Pro 中也实现了更高的准确率。