Jet-Nemotron es un novedoso modelo de lenguaje de arquitectura híbrida que logra una precisión comparable o superior a la de los modelos de atención completa existentes, a la vez que mejora significativamente el rendimiento de generación. Se desarrolló utilizando una novedosa canalización de búsqueda de arquitectura de red neuronal denominada PostNAS (Búsqueda de Arquitectura PostNeural). A diferencia de los enfoques existentes, explora eficientemente los diseños de bloques de atención mediante la fijación de pesos MLP basados en un modelo de atención completa preentrenado. Los componentes clave incluyen la colocación y eliminación óptima de capas de atención completa, la selección lineal de bloques de atención, un novedoso diseño de bloques de atención y la búsqueda de hiperparámetros basada en hardware. En comparación con Qwen3, Qwen2.5, Gemma3 y Llama3.2, el modelo Jet-Nemotron-2B logra una precisión comparable o superior en múltiples pruebas de referencia, a la vez que alcanza un rendimiento de generación hasta 53,6 veces más rápido y una aceleración de prellenado 6,1 veces más rápida. También logra una mayor precisión en MMLU y MMLU-Pro que los modelos avanzados de atención completa MoE recientes, como DeepSeek-V3-Small y Moonlight. Esto es posible a pesar de que el modelo más grande tiene 15 mil millones de parámetros totales y 2,2 mil millones de parámetros activados.