본 논문은 하이브리드 아키텍처 언어 모델인 Jet-Nemotron을 제시한다. 이는 선도적인 full-attention 모델의 정확도와 동등하거나 더 높은 정확도를 보이면서도, 생성 처리량을 크게 향상시킨다. Jet-Nemotron은 효율적인 모델 설계를 가능하게 하는 새로운 신경망 아키텍처 탐색 파이프라인인 Post Neural Architecture Search (PostNAS)를 사용하여 개발되었다. PostNAS는 사전 훈련된 full-attention 모델의 MLP 가중치를 고정하고 어텐션 블록 디자인을 효율적으로 탐색한다. 이 파이프라인은 (1) 최적의 full-attention 레이어 배치 및 제거 학습, (2) 선형 어텐션 블록 선택, (3) 새로운 어텐션 블록 설계, (4) 하드웨어 인식 하이퍼파라미터 검색의 네 가지 주요 구성 요소를 포함한다. Jet-Nemotron-2B 모델은 Qwen3, Qwen2.5, Gemma3, Llama3.2와 유사하거나 더 높은 정확도를 달성하며, 최대 53.6배의 생성 처리량 속도 향상과 6.1배의 사전 채움 속도 향상을 제공한다. 또한 DeepSeek-V3-Small 및 Moonlight와 같은 최신 MoE full-attention 모델보다 MMLU 및 MMLU-Pro에서 더 높은 정확도를 달성한다.