Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

Created by
  • Haebom

作者

NVIDIA: :, Aarti Basant, Abhijit Khairnar, Abhijit Paithankar, Abhinav Khattar, Adithya Renduchintala, Aditya Malte, Akhiad Bercovich, Akshay Hazare, Alejandra Rico, Aleksander Ficek, Alex Bukharkhin, Alex Shaposhni Barton、Ameya Sunil Mahabaleshwarkar、Amy Shen、Andrew Tao、Ann Guan、Anna Shors、Anubhav Mandarwal、Arham Mehta、Arun Venkatesan、Ashton Sharabiani、Ashwath Aithal、Ashwin Poojary、Ayush Dattagupta、Balam Buddua Kartal, Bita Darvish Rouhani, Bobby Chen, Boris Ginsburg, Brandon Norick, Brian Yu, Bryan Catanzaro, Charles Wang, Charlie Truong, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christian Munley, Christopher Parisien, Dan Su, Daniel Afrimi, Daniel Korzekwa, Daniel Rohrer, Daniel Rohrer Narayanan, Dima Rekesh, Dina Yared, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Eileen Long, Elliott Ning, Eric Chung, Erick Galinkin, Evelina Bakhturina, Gargi Prasad, Gerald Shen, Haifeng Qian, Haim Elisha, Harsh Sharma, Wang, Hoo Chang Shin, Hua Huang, Iain Cunningham, Igor Gitman, Ivan Moshkov, Jaehun Jung, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jian Zhang, Jiaqi Zeng, Jimmy Zhang, Jinze Xue, Jocelyn Huang, Kame Jennings, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kezhi Kong, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Kushan Ahmadian, Lawrence Mc Vega, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Mark Cai, Markus Kliegl, Marta Stepniewska-Dziubinska, Matvei Novikov, Mehrzad Samadi, Meredith Price, Meriem Boubdir, Michael Boone, Michael Evans, Michal Bien, Michal Bien, Mohammad Shoeybi, Mostofa Patwary, Namit Dhameja, Nave Assaf, Negar Habibi, Nidhi Bhatia, Nikki Pope, Nima Tajbakhsh, Nirmal Kumar Juluru, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Oluwatobi Ovabi Chadha, Pavlo Molchanov, Peter Dykas, Peter Jin, Piotr Bialecki, Piotr Januszewski, Pradeep Thalasta, Prashant Gaikwad, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi Mahabadi, Rajen Patel, Ran El-Yan Shahbazyan, Ritika Borkar, Ritu Gala, Roger Waleffe, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Sahil Jain, Samuel Kriman, Sanjeev Satheesh, Saori Kaji, Sarah Yurick, Saurav Muralidharan, Sean Narenthiran, Seonmyung Shanmugam Ramasamy、Shaona Ghosh、Sharath Turuvekere Sreenivas、Shelby Thomas、Shizhe Diao、Shreya Gopal、Shrimai Prabhumoye、Shubham Toshniwal、Shuoyang Ding、Siddharth Singh、Siddhartha Jain、Somshuba Singa Nahida Akter, Terry Kong, Tim Moon, Tomasz Hliwiak, Tomer Asida, Tony Wang, Tugrul Konuk, Twinkle Vashishth, Tyler Poon, Udi Karpas, Vahid Noroozi, Venkat Srinivasan, Vijay Korthikanti, Vikram Fugro, Vineeth Kallud, Vineeth Kallur, Ahmad, Wei Du, Wonmin Byeon, Ximing Lu, Xin Dong, Yashaswi Karnati, Yejin Choi, Yian Zhang, Ying Lin, Yonggan Fu, Yoshi Suhara, Zhen Dong, Zhiyu Li, Zhongbo Zhu, Zijia Chen

概要

Nemotron-Nano-9B-v2 は、推論作業スループットを高めながらクラス最高のモデルと比較して最先端の精度を達成するように設計されたハイブリッド Mamba-Transformer 言語モデルです。 Nemotron-Hアーキテクチャに基づいて、従来のTransformerアーキテクチャのほとんどのセルフアテンションレイヤをMamba-2レイヤに置き換えて、推論に必要な長い思考プロセスを作成する際の推論速度を向上させました。 120億パラメータモデル(Nemotron-Nano-12B-v2-Base)を20兆トークンでFP8学習レシピを使用して事前訓練した後、Minitron戦略を使用してモデルを圧縮して蒸留し、単一のNVIDIA A10G GPU(22GiBメモリ、bfloat16精度)で最大128k。同様のサイズの既存モデル(Qwen3-8Bなど)と比較して、Nemotron-Nano-9B-v2は、推論ベンチマークで同等またはより正確な精度を達成しながら、8k入力および16k出力トークンなどの推論設定で最大6倍高い推論スループットを達成します。 Nemotron-Nano-9B-v2、Nemotron-Nano12B-v2-Base、およびNemotron-Nano-9B-v2-Baseチェックポイントと、ほとんどの事前および事後トレーニングデータセットをHugging Faceに公開します。

Takeaways、Limitations

Takeaways:
Mamba-Transformer アーキテクチャを使用して推論作業スループットを大幅に向上させながら、クラスクラスのモデルの精度を維持することが可能であることを示しています。
単一のGPUから128kトークンまで処理できるように、モデルサイズの最適化と効率的な推論戦略を提示します。
事前に訓練されたモデルとデータセットを公開し、研究開発に貢献します。
Limitations:
この論文で提示されたパフォーマンスの向上は、特定のハードウェア(NVIDIA A10G GPU)環境で測定された結果であり、他のハードウェア環境ではパフォーマンスの違いが発生する可能性があります。
Mamba-Transformerアーキテクチャの一般化性能と様々なタスクへの適用性に関するさらなる研究が必要である。
モデルのサイズを縮小する過程で精度が低下する可能性があり、これを最小限に抑えるための追加の研究が必要です。
👍