Jet-Nemotron은 기존의 완전 어텐션 모델과 동등하거나 그 이상의 정확도를 달성하면서 생성 처리량을 크게 향상시킨 새로운 하이브리드 아키텍처 언어 모델입니다. PostNAS(Post Neural Architecture Search)라는 새로운 신경망 아키텍처 탐색 파이프라인을 사용하여 개발되었으며, 기존의 접근 방식과 달리 미리 훈련된 완전 어텐션 모델을 기반으로 MLP 가중치를 고정하여 어텐션 블록 설계를 효율적으로 탐색합니다. 주요 구성 요소는 최적의 완전 어텐션 레이어 배치 및 제거, 선형 어텐션 블록 선택, 새로운 어텐션 블록 설계, 하드웨어 인식 하이퍼파라미터 검색입니다. Jet-Nemotron-2B 모델은 Qwen3, Qwen2.5, Gemma3, Llama3.2와 비교하여 여러 벤치마크에서 동등하거나 우수한 정확도를 달성하면서 최대 53.6배의 생성 처리량 속도 향상과 6.1배의 사전 채우기 속도 향상을 제공합니다. 또한 DeepSeek-V3-Small 및 Moonlight와 같은 최신 고급 MoE 완전 어텐션 모델보다 MMLU 및 MMLU-Pro에서 더 높은 정확도를 달성합니다. 이는 총 15B개 및 활성화된 2.2B개의 매개변수를 가진 더 큰 규모의 모델임에도 불구하고 가능합니다.