Jet-Nemotron est un nouveau modèle de langage d'architecture hybride qui atteint une précision comparable, voire supérieure, aux modèles d'attention totale existants, tout en améliorant considérablement le débit de génération. Il a été développé à l'aide d'un nouveau pipeline de recherche d'architecture de réseau neuronal appelé PostNAS (Post Neural Architecture Search). Contrairement aux approches existantes, il explore efficacement les conceptions de blocs d'attention en fixant les pondérations MLP basées sur un modèle d'attention totale pré-entraîné. Ses principaux composants incluent le placement et la suppression optimaux de la couche d'attention totale, la sélection linéaire des blocs d'attention, la conception innovante des blocs d'attention et la recherche d'hyperparamètres sensible au matériel. Comparé à Qwen3, Qwen2.5, Gemma3 et Llama3.2, le modèle Jet-Nemotron-2B atteint une précision comparable, voire supérieure, sur plusieurs benchmarks, tout en affichant un débit de génération jusqu'à 53,6 fois plus rapide et une accélération du pré-remplissage jusqu'à 6,1 fois plus rapide. Il atteint également une précision supérieure sur MMLU et MMLU-Pro que les récents modèles d'attention totale MoE avancés tels que DeepSeek-V3-Small et Moonlight. Cela est possible malgré le fait que le modèle le plus grand possède 15 milliards de paramètres au total et 2,2 milliards de paramètres activés.