Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

NVIDIA Nemotron Nano 2 : un modèle de raisonnement hybride Mamba-Transformer précis et efficace

Created by
  • Haebom

Auteur

NVIDIA, :, Aarti Basant, Abhijit Khairnar, Abhijit Paithankar, Abhinav Khattar, Adithya Renduchintala, Aditya Malte, Akhiad Bercovich, Akshay Hazare, Alejandra Rico, Aleksander Ficek, Alex Kondratenko, Alex Shaposhnikov, Alexander Bukharin, Ali Taghibakhshi, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amy Shen, Andrew Tao, Ann Guan, Anna Shors, Anubhav Mandarwal, Arham Mehta, Arun Venkatesan, Ashton Sharabiani, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Banghua Zhu, Barnaby Simkin, Bilal Kartal, Bita Darvish Rouhani, Bobby Chen, Boris Ginsburg, Brandon Norick, Brian Yu, Bryan Catanzaro, Charles Wang, Charlie Truong, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christian Munley, Christopher Parisien, Dan Su, Daniel Afrimi, Daniel Korzekwa, Daniel Rohrer, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Dima Rekesh, Dina Yared, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Eileen Long, Elliott Ning, Eric Chung, Erick Galinkin, Evelina Bakhturina, Gargi Prasad, Gerald Shen, Haifeng Qian, Haim Elisha, Harsh Sharma, Hayley Ross, Helen Ngo, Herman Sahota, Hexin Wang, Hoo Chang Shin, Hua Huang, Iain Cunningham, Igor Gitman, Ivan Moshkov, Jaehun Jung, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jian Zhang, Jiaqi Zeng, Jimmy Zhang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jonathan Cohen, Joseph Jennings, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kezhi Kong, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Kushan Ahmadian, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Luis Vega, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Mark Cai, Markus Kliegl, Marta Stepniewska-Dziubinska, Matvei Novikov, Mehrzad Samadi, Meredith Price, Meriem Boubdir, Michael Boone, Michael Evans, Michal Bien, Michal Zawalski, Miguel Martinez, Mike Chrzanowski, Mohammad Shoeybi, Mostofa Patwary, Namit Dhameja, Nave Assaf, Negar Habibi, Nidhi Bhatia, Nikki Pope, Nima Tajbakhsh, Nirmal Kumar Juluru, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Oluwatobi Olabiyi, Pablo Ribalta, Padmavathy Subramanian, Parth Chadha, Pavlo Molchanov, Peter Dykas, Peter Jin, Piotr Bialecki, Piotr Januszewski, Pradeep Thalasta, Prashant Gaikwad, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi Mahabadi, Rajen Patel, Ran El-Yaniv, Ranjit Rajan, Ria Cheruvu, Rima Shahbazyan, Ritika Borkar, Ritu Gala, Roger Waleffe, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger ; Sahil Jain, Samuel Kriman, Sanjeev Satheesh, Saori Kaji, Sarah Yurick, Saurav Muralidharan, Sean Narenthiran, Seonmyeong Bak, Sepehr Sameni, Seungju Han, Shanmugam Ramasamy, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shizhe Diao, Shreya Gopal, Shrimai Prabhumoye, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Siddhartha Jain, Somshubra Majumdar, Soumye Singhal, Stefania Alborghetti, Syeda Nahida Akter, Terry Kong, Tim Moon, Tomasz Hliwiak, Tomer Asida, Tony Wang, Tugrul Konuk, Twinkle Vashishth, Tyler Poon, Udi Karpas, Vahid Noroozi, Venkat Srinivasan, Vijay Korthikanti, Vikram Fugro, Vineeth Kalluru, Vitaly Kurin, Vitaly Lavrukhin, Wasi Uddin Ahmad, Wei Du, Wonmin Byeon, Ximing Lu, Xin Dong, Yashaswi Karnati, Yejin Choi, Yian Zhang, Ying Lin, Yonggan Fu, Yoshi Suhara, Zhen Dong, Zhiyu Li, Zhongbo Zhu, Zijia Chen

Contour

Nemotron-Nano-9B-v2 est un modèle de langage hybride Mamba-Transformer conçu pour atteindre une précision de pointe par rapport aux modèles comparables tout en augmentant le débit d'inférence. Basé sur l'architecture Nemotron-H, il remplace la plupart des couches d'auto-attention des architectures Transformer conventionnelles par des couches Mamba-2, améliorant ainsi la vitesse d'inférence en générant les longs processus de réflexion nécessaires à l'inférence. Tout d'abord, un modèle de 12 milliards de paramètres (Nemotron-Nano-12B-v2-Base) est pré-entraîné à l'aide des recettes d'apprentissage FP8 et de 20 000 milliards de jetons. Le modèle est ensuite compressé et distillé grâce à la stratégie Minitron, permettant l'inférence sur un maximum de 128 000 jetons sur un seul GPU NVIDIA A10G (22 Gio de mémoire, précision bfloat16). Comparé aux modèles existants de taille similaire (par exemple, Qwen3-8B), Nemotron-Nano-9B-v2 atteint un débit d'inférence jusqu'à six fois supérieur avec des paramètres d'inférence tels que 8 000 jetons d'entrée et 16 000 jetons de sortie, tout en offrant une précision équivalente, voire supérieure, lors des tests d'inférence. Nous publions des points de contrôle pour Nemotron-Nano-9B-v2, Nemotron-Nano-12B-v2-Base et Nemotron-Nano-9B-v2-Base, ainsi que la plupart des jeux de données pré- et post-entraînement, pour Hugging Face.

Takeaways, Limitations

Takeaways:
Débit considérablement amélioré des tâches d'inférence (jusqu'à 6x) grâce à l'architecture Mamba-Transformer.
Atteint des niveaux de précision supérieurs ou équivalents à ceux des modèles comparables.
Nous avons efficacement compressé et distillé le modèle pour gérer jusqu'à 128 000 jetons.
Contribuer à la recherche et au développement en publiant des modèles et des ensembles de données pré-entraînés.
Limitations:
Les améliorations de performances présentées dans le document peuvent être limitées à du matériel spécifique (GPU NVIDIA A10G) et à des benchmarks.
Des recherches supplémentaires sont nécessaires sur l’efficacité et les performances de généralisation de la couche Mamba-2.
Une évaluation plus complète sur une variété de tâches d’inférence et d’ensembles de données est nécessaire.
👍