Jet-Nemotron est un nouveau modèle de langage à architecture hybride qui améliore considérablement le débit de génération tout en maintenant, voire en surpassant, la précision des modèles d'attention complète existants. Il a été développé à l'aide d'un nouveau pipeline de recherche d'architecture de réseau neuronal appelé PostNAS (Post Neural Architecture Search). Contrairement aux approches existantes, il explore efficacement les conceptions de blocs d'attention en fixant les pondérations MLP d'un modèle d'attention complète pré-entraîné. Ses principaux composants incluent le placement et la suppression optimaux de la couche d'attention complète, la sélection linéaire des blocs d'attention, la conception innovante des blocs d'attention et la recherche d'hyperparamètres sensible au matériel. Le modèle Jet-Nemotron-2B atteint une précision similaire ou supérieure à celle de Qwen3, Qwen2.5, Gemma3 et Llama3.2 sur divers benchmarks, tout en offrant un débit de génération jusqu'à 53,6 fois plus rapide et un pré-remplissage 6,1 fois plus rapide. Il atteint également une précision supérieure sur MMLU et MMLU-Pro que les récents modèles d'attention complète MoE avancés tels que DeepSeek-V3-Small et Moonlight.