Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

Created by
  • Haebom

作者

Yuxian Gu, Qinghao Hu, Shang Yang, Haocheng Xi, Junyu Chen, Song Han, Han Cai

概要

Jet-Nemotronは、既存の完全アテンションモデルと同等またはそれ以上の精度を達成しながら生成スループットを大幅に向上させた新しいハイブリッドアーキテクチャ言語モデルです。 PostNAS(Post Neural Architecture Search)と呼ばれる新しいニューラルネットワークアーキテクチャナビゲーションパイプラインを使用して開発されました。主なコンポーネントは、最適な完全アテンションレイヤの配置と削除、線形アテンションブロックの選択、新しいアテンションブロックの設計、ハードウェア認識ハイパーパラメータ検索です。 Jet-Nemotron-2Bモデルは、Qwen3、Qwen2.5、Gemma3、Llama3.2と比較して複数のベンチマークで同等または優れた精度を達成しながら、最大53.6倍の生成スループット速度向上と6.1倍のプリフィル速度向上を提供します。さらに、DeepSeek-V3-SmallやMoonlightなどの最新の高度なMoE完全アテンションモデルよりも、MMLUおよびMMLU-Proでより高い精度を実現します.これは、合計15B個とアクティブな2.2B個のパラメータを持つ大規模なモデルであるにもかかわらず可能です。

Takeaways、Limitations

Takeaways:
ハイブリッドアーキテクチャにより、完全アテンションモデルの精度を維持しながら生成スループットを劇的に向上させることができます。
PostNASと呼ばれる効率的なモデル設計パイプラインを提示します。
Jet-Nemotron-2Bモデルは、従来の最先端モデルよりも優れたパフォーマンスをいくつかのベンチマークで示しています。
より少ないパラメータで、より大きなモデルよりも高いパフォーマンスを達成できることを示唆しています。
Limitations:
PostNASパイプラインの一般化性能と他の種類のモデルへの適用性に関するさらなる研究が必要です。
Jet-Nemotronモデルのエネルギー効率の分析が不足している。
特定のベンチマークに対する偏りの可能性を考慮する必要があります。
モデルのサイズとパフォーマンスの関係について、より深い分析が必要です。
👍