Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Nemotron-H : une famille de modèles hybrides de transformateurs Mamba précis et efficaces

Created by
  • Haebom

Auteur

NVIDIA, :, Aaron Blakeman, Aarti Basant, Abhinav Khattar, Adithya Renducintala, Akhiad Bercovich, Aleksander Ficek, Alexis Bjorlin, Ali Taghibakhshi, Amala Sanjay Deshmukh, Ameya Sunil Mahabaleshwarkar, Andrew Tao, Anna Shors, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Bobby Chen, Boris Ginsburg, Boxin Wang, Brandon Norick, Brian Butterfield, Bryan Catanzaro, Carlo del Mundo, Chengyu Dong, Christine Harvey, Christopher Parisien, Dan Su, Daniel Korzekwa, Danny Yin, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Denys Fridman, Dima Rekesh, Ding Ma, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Dusan Stosic, Eileen Long, Elad Segal, Ellie Evans, Éric Chung, Erick Galinkin, Evelina Bakhturina, Ewa Dobrowolska, Fei Jia, Fuxiao Liu, Gargi Prasad, Gerald Shen, Guilin Liu, Guo Chen, Haifeng Qian, Helen Ngo, Hongbin Liu, Hui Li, Igor Gitman, Ilia Karmanov, Ivan Moshkov, Izik Golan, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jarno Seppanen, Jason Lu, Jason Sewall, Jiaqi Zeng, Jiaxuan You, Jimmy Zhang, Jing Zhang, Jining Huang, Jinze Kirthi Sivamani, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Lawrence McAfee, Leon Derczynski, Lindsey Pavao, Luis Vega, Lukas Voegtle, Maciej Bala, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Markus Kliegl, Marta Stepniewska-Dziubinska, Matthieu Le, Matvei Novikov, Mehrzad Samadi, Michael Andersch, Michael Evans, Miguel Martinez, Mike Chrzanowski, Mike Ranzinger, Mikolaj Blaz, Misha Smelyanskiy, Mohamed Fawzy, Mohammad Shoeybi, Mostofa Patwary, Nayeon Lee, Nima Tajbakhsh, Ning Xu, Oleg Rybakov, Oleksii Kuchaiev, Olivier Delalleau, Osvald Nitski, Parth Chadha, Pasha Shamis, Paulius Micikevicius, Pavlo Molchanov, Peter Dykas, Philipp Fischer, Pierre-Yves Aquilanti, Piotr Bialecki, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi, Rahul Kandu, Ran El-Yaniv, Raviraj Joshi, Roger Waleffe, Ruoxi Zhang, Sabrina Kavanaugh, Sahil Jain, Samuel Kriman, Sangkug Lym, Sanjeev Satheesh, Saurav Muralidharan, Sean Narenthiran, Selvaraj Anandaraj, Seonmyeong Bak, Sergey Kashirsky, Seungju Han, Shantanu Acharya, Shaona Ghosh, Sharath Turuvekere Sreenivas, Sharon Clay, Shelby Thomas, Shrimai Prabhumoye, Shubham Pachori, Shubham Toshniwal, Shyamala Prayaga, Siddhartha Jain, Sirshak Das, Slawek Kierat, Somshubra Majumdar, Song Han, Soumye Singhal, Sriharsha Niverty, Stefania Alborghetti, Suseella Panguluri, Swetha Bhendigeri, Syeda Nahida Akter, Szymon Migacz, Tal Shiri, Terry Kong, Timo Roman, Tomer Ronen, Trisha Saar, Tugrul Konuk, Tuomas Rintamaki, Tyler Poon, Ushnish De, Vahid Noroozi, Varun Singh, Vijay Korthikanti, Vitaly Kurin, Wasi Uddin Ahmad, Wei Du, Wei Ping, Wenliang Dai, Wonmin Byeon, Xiaowei Ren, Yao Xu, Yejin Choi, Yian Zhang, Ying Lin, Yoshi Suhara, Zhiding Yu, Zhiqi Li, Zhiyu Li, Zhongbo Zhu, Zhuolin Yang, Zijia Chen

Contour

Cet article propose le modèle Nemotron-H, qui vise à construire un modèle d'inférence efficace pour améliorer l'évolutivité du temps d'inférence. Nemotron-H est un modèle hybride Mamba-Transformer de tailles 8B et 56B/47B. Il remplace la plupart des couches d'auto-attention des modèles Transformer existants par des couches Mamba à charge de calcul et utilisation mémoire par jeton fixes, réduisant ainsi les coûts d'inférence. Les résultats expérimentaux montrent que Nemotron-H atteint une précision comparable, voire supérieure, à celle d'autres modèles Transformer open source de pointe, tels que Qwen-2.5 et Llama-3.1, et une vitesse d'inférence jusqu'à trois fois supérieure. De plus, nous utilisons une nouvelle technique d'élagage et de distillation des connaissances appelée MiniPuzzle pour générer un modèle 47B (Nemotron-H-47B-Base) à partir du modèle 56B, améliorant ainsi la vitesse d'inférence de 20 %. Enfin, nous présentons une méthode d'entraînement basée sur FP8 qui produit des résultats comparables à ceux basés sur BF16 et l'appliquons à l'entraînement du modèle 56B. Nous présentons également des points de contrôle du modèle basés sur l'assistance Hugging Face et NeMo.

Takeaways, Limitations

Takeaways:
Présentation de la possibilité d'une inférence efficace à l'aide de couches Mamba.
Obtenez une vitesse d’inférence améliorée par rapport aux modèles de pointe existants.
Réduction de la taille du modèle et maintien des performances grâce à la technique MiniPuzzle.
Présentation d'une méthode de formation efficace utilisant des recettes de formation basées sur FP8.
Améliorer l'accessibilité en publiant des modèles en open source.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer si les améliorations de performances de la couche Mamba peuvent être généralisées à tous les types de tâches.
Des recherches supplémentaires sont nécessaires sur la généralité de la technique MiniPuzzle et son applicabilité à d’autres modèles.
Une analyse plus approfondie de la stabilité et des performances de généralisation de la formation FP8 est nécessaire.
Une analyse comparative supplémentaire de modèles de différentes tailles peut être nécessaire.
👍