Jet-Nemotron là một mô hình ngôn ngữ kiến trúc lai mới đạt được độ chính xác tương đương hoặc vượt trội so với các mô hình toàn tâm toàn ý hiện có, đồng thời cải thiện đáng kể thông lượng tạo. Mô hình này được phát triển bằng cách sử dụng một đường ống tìm kiếm kiến trúc mạng nơ-ron mới có tên là PostNAS (Tìm kiếm Kiến trúc Hậu Nơ-ron). Không giống như các phương pháp hiện có, mô hình này khám phá hiệu quả các thiết kế khối chú ý bằng cách cố định trọng số MLP dựa trên một mô hình toàn tâm toàn ý được đào tạo trước. Các thành phần chính bao gồm vị trí và loại bỏ lớp toàn tâm toàn ý tối ưu, lựa chọn khối chú ý tuyến tính, thiết kế khối chú ý mới và tìm kiếm siêu tham số nhận biết phần cứng. So với Qwen3, Qwen2.5, Gemma3 và Llama3.2, mô hình Jet-Nemotron-2B đạt được độ chính xác tương đương hoặc vượt trội trên nhiều điểm chuẩn, đồng thời đạt thông lượng tạo nhanh hơn tới 53,6 lần và tốc độ nạp trước nhanh hơn 6,1 lần. Mô hình này cũng đạt được độ chính xác cao hơn trên MMLU và MMLU-Pro so với các mô hình toàn tâm toàn ý MoE tiên tiến gần đây như DeepSeek-V3-Small và Moonlight. Điều này có thể thực hiện được mặc dù mô hình lớn hơn có tổng cộng 15 tỷ tham số và 2,2 tỷ tham số được kích hoạt.