Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models

Created by
  • Haebom

作者

NVIDIA,:, Aaron Blakeman, Aarti Basant, Abhinav Khattar, Adithya Renduchintala, Akhiad Bercovich, Aleksander Ficek, Alexis Bjorlin, Ali Taghibakhshi, Amala Sanjay Deshmukh, Ameya Sunil Mahabaleshwarkar, Andrew Poojary, Ayush Dattagupta, Balaram Buddharaju, Bobby Chen, Boris Ginsburg, Boxin Wang, Brandon Norick, Brian Butterfield, Bryan Catanzaro, Carlo del Mundo, Chengyu Dong, Christine Harvey, Christopher Parisien, Dan Su, Daniel Korzekwa, Danny Narayanan, Denys Fridman, Dima Rekesh, Ding Ma, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Dusan Stosic, Eileen Long, Elad Segal, Ellie Evans, Eric Chung, Erick Galinkin, Evelina Bakhturina, Ewa Dobrowolska, Fei Jia, Fux Liu、Guo Chen、Haifeng Qian、Helen Ngo、Hongbin Liu、Hui Li、Igor Gitman、Ilia Karmanov、Ivan Moshkov、Izik Golan、Jan Kautz、Jane Polak Scowcroft、Jared Casper、Jarno Seppanen、Jason Lu、Jason Sewall、Jiaqi Zeng Jia、 Jining Huang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jon Barker, Jonathan Cohen, Joseph Jennings, Jupinder Parmar, Karan Sapra, Kari Briski, Kateryna Chumachenko, Katherine Luna, Keshav Santhanam, Kezhi Kong, Kirthisikman Kunlun Li, Lawrence McAfee, Leon Derczynski, Lindsey Pavao, Luis Vega, Lukas Voegtle, Maciej Bala, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Markus Kliegl, Marta Stepniewska-Dziubinska, Mata Andersch、Michael Evans、Miguel Martinez、Mike Chrzanowski、Mike Ranzinger、Mikolaj Blaz、Misha Smelyanskiy、Mohamed Fawzy、Mohammad Shoeybi、Mostofa Patwary、Nayeon Lee、Nima Tajbakhsh、Ning Xu、Oleg Rybakov、Oleksii Kuchaiev、パシャ・シャミス、パウリウス・ミシケビシウス、パブロ・モルチャノフ、ピーター・ディカス、フィリップ・フィッシャー、ピエール・イヴス・アキランティ、パイオット・ビアレッキー、プラスーン・ヴァルシュニー、プリタム・ガンデチャ、プルツェムク・トレダック、ラベエ・カリミ、ラハル・カンドゥ、ラン・エル・ヤニブ、ラビラージュKavanaugh, Sahil Jain, Samuel Kriman, Sangkug Lym, Sanjeev Satheesh, Saurav Muralidharan, Sean Narenthiran, Selvaraj Anandaraj, Seonmyeong Bak, Sergey Kashirsky, Seungju Han, Shantanu Acharya, Shaona Ghosh, Sharath Turuvek Prabhumoye, Shubham Pachori, Shubham Toshniwal, Shyamala Prayaga, Siddhartha Jain, Sirshak Das, Slawek Kierat, Somshubra Majumdar, Song Han, Soumye Singhal, Sriharsha Niverty, Stefania Alborghetti, Suseella Panguluri, Suseella Panguluri, Migacz, Tal Shiri, Terry Kong, Timo Roman, Tomer Ronen, Trisha Saar, Tugrul Konuk, Tuomas Rintamaki, Tyler Poon, Ushnish De, Vahid Noroozi, Varun Singh, Vijay Korthikanti, Vitaly Kurin, Wasi Uddin Ahmad, Wei Du, Xingれん、やおしゅ、けいじんちょ、じゃんじゃん、ゆんりん、よしすはら、じひるゆ、じききり、じじゆり、じょんぼじゅ、じゅうりんやん、ジジアチェン

概要

本論文は,推論時間のスケーラビリティを改善するために推論効率的なモデルを構築することに重点を置いたNemotron-Hモデルを提案する。 Nemotron-Hは8Bサイズと56B/47BサイズのMamba-Transformerハイブリッドモデルで、従来のTransformerモデルのセルフアテンションレイヤーのほとんどを一定の計算量とトークンあたりのメモリ使用量を持つMambaレイヤーに置き換えることで、推論コストを削減します。実験の結果、Nemotron-Hは、Qwen-2.5やLlama-3.1など、他の最先端のオープンソーストランスフォーマーモデルと同等またはより高い精度を示し、最大3倍の高速推論速度を達成します。さらに、MiniPuzzleという新しい剪定および知識蒸留技術を使用して、56Bモデルから47Bモデル(Nemotron-H-47B-Base)を作成し、推論速度を20%向上させました。最後に、BF16ベースのトレーニングと同等の結果を得るFP8ベースのトレーニングレシピを紹介し、これを56Bモデルトレーニングに適用しました。 Hugging FaceとNeMoサポートベースのモデルチェックポイントを公開します。

Takeaways、Limitations

Takeaways:
Mambaレイヤーを活用した効率的な推論可能性の提示
既存の最先端モデルと比較して改善された推論速度を達成した。
MiniPuzzle技術によるモデルサイズの縮小と性能の維持
FP8ベースのトレーニングレシピによる効率的なトレーニング方法の提示
オープンソースでモデル公開によるアクセシビリティの向上。
Limitations:
Mambaレイヤーのパフォーマンス向上があらゆる種類の作業に一般化できるかどうかについてのさらなる研究が必要です。
MiniPuzzle技術の一般性と他のモデルへの適用性に関するさらなる研究が必要
FP8トレーニングの安定性と一般化性能のより深い分析の必要性
さまざまなサイズのモデルの比較分析がさらに必要になる場合があります。
👍