Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Nemotron-H: Una familia de modelos híbridos Mamba-Transformer precisos y eficientes

Created by
  • Haebom

Autor

NVIDIA, :, Aaron Blakeman, Aarti Basant, Abhinav Khattar, Adithya Renduchintala, Akhiad Bercovich, Aleksander Ficek, Alexis Bjorlin, Ali Taghibakhshi, Amala Sanjay Deshmukh, Ameya Sunil Mahabaleshwarkar, Andrew Tao, Anna Shors, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Bobby Chen, Boris Ginsburg, Boxin Wang, Brandon Norick, Brian Butterfield, Bryan Catanzaro, Carlo del Mundo, Chengyu Dong, Christine Harvey, Christopher Parisien, Dan Su, Daniel Korzekwa, Danny Yin, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Denys Fridman, Dima Rekesh, Ding Ma, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Dusan Stosic, Eileen Long, Elad Segal, Ellie Evans, Eric Chung, Erick Galinkin, Evelina Bakhturina, Ewa Dobrowolska, Fei Jia, Fuxiao Liu, Gargi Prasad, Gerald Shen, Guilin Liu, Guo Chen, Haifeng Qian, Helen Ngo, Hongbin Liu, Hui Li, Igor Gitman, Ilia Karmanov, Ivan Moshkov, Izik Golan, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jarno Seppanen, Jason Lu, Jason Sewall, Jiaqi Zeng, Jiaxuan You, Jimmy Zhang, Jing Zhang, Jining Huang, Jinze Kirthi Sivamani, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Lawrence McAfee, Leon Derczynski, Lindsey Pavao, Luis Vega, Lukas Voegtle, Maciej Bala, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Markus Kliegl, Marta Stepniewska-Dziubinska, Matthieu Le, Matvei Novikov, Mehrzad Samadi, Michael Andersch, Michael Evans, Miguel Martinez, Mike Chrzanowski, Mike Ranzinger, Mikolaj Blaz, Misha Smelyanskiy, Mohamed Fawzy, Mohammad Shoeybi, Mostofa Patwary, Nayeon Lee, Nima Tajbakhsh, Ning Xu, Oleg Rybakov, Oleksii Kuchaiev, Olivier Delalleau, Osvald Nitski, Parth Chadha, Pasha Shamis, Paulius Micikevicius, Pavlo Molchanov, Peter Dykas, Philipp Fischer, Pierre-Yves Aquilanti, Piotr Bialecki, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi, Rahul Kandu, Ran El-Yaniv, Raviraj Joshi, Roger Waleffe, Ruoxi Zhang, Sabrina Kavanaugh, Sahil Jain, Samuel Kriman, Sangkug Lym, Sanjeev Satheesh, Saurav Muralidharan, Sean Narenthiran, Selvaraj Anandaraj, Seonmyeong Bak, Sergey Kashirsky, Seungju Han, Shantanu Acharya, Shaona Ghosh, Sharath Turuvekere Sreenivas, Sharon Clay, Shelby Thomas, Shrimai Prabhumoye, Shubham Pachori, Shubham Toshniwal, Shyamala Prayaga, Siddhartha Jain, Sirshak Das, Slawek Kierat, Somshubra Majumdar, Song Han, Soumye Singhal, Sriharsha Niverty, Stefania Alborghetti, Suseella Panguluri, Swetha Bhendigeri, Syeda Nahida Akter, Szymon Migacz, Tal Shiri, Terry Kong, Timo Roman, Tomer Ronen, Trisha Saar, Tugrul Konuk, Tuomas Rintamaki, Tyler Poon, Ushnish De, Vahid Noroozi, Varun Singh, Vijay Korthikanti, Vitaly Kurin, Wasi Uddin Ahmad, Wei Du, Wei Ping, Wenliang Dai, Wonmin Byeon, Xiaowei Ren, Yao Xu, Yejin Choi, Yian Zhang, Ying Lin, Yoshi Suhara, Zhiding Yu, Zhiqi Li, Zhiyu Li, Zhongbo Zhu, Zhuolin Yang, Zijia Chen

Describir

Este artículo propone el modelo Nemotron-H, que se centra en la construcción de un modelo eficiente en inferencia para mejorar la escalabilidad del tiempo de inferencia. Nemotron-H es un modelo híbrido Mamba-Transformer con tamaños de 8B y 56B/47B. Reemplaza la mayoría de las capas de autoatención de los modelos Transformer existentes con capas Mamba con una carga computacional fija y un uso de memoria por token, lo que reduce los costos de inferencia. Los resultados experimentales muestran que Nemotron-H alcanza una precisión comparable o superior a la de otros modelos Transformer de código abierto de vanguardia, como Qwen-2.5 y Llama-3.1, y alcanza una velocidad de inferencia hasta tres veces más rápida. Además, utilizamos una novedosa técnica de poda y destilación de conocimiento denominada MiniPuzzle para generar un modelo de 47B (Nemotron-H-47B-Base) a partir del modelo de 56B, lo que mejora la velocidad de inferencia en un 20%. Finalmente, presentamos una receta de entrenamiento basada en FP8 que logra resultados comparables al entrenamiento basado en BF16 y la aplicamos al entrenamiento del modelo 56B. También revelamos los puntos de control del modelo basados ​​en Hugging Face y la asistencia de NeMo.

Takeaways, Limitations

Takeaways:
Presentando la posibilidad de inferencia eficiente utilizando capas Mamba.
Consiga una velocidad de inferencia mejorada en comparación con los modelos de última generación existentes.
Reducir el tamaño del modelo y mantener el rendimiento utilizando la técnica MiniPuzzle.
Presentamos un método de entrenamiento eficiente utilizando recetas de entrenamiento basadas en FP8.
Mejorar la accesibilidad mediante la publicación de modelos como código abierto.
Limitations:
Se necesita más investigación para determinar si las mejoras de rendimiento de la capa Mamba se pueden generalizar a todo tipo de tareas.
Se necesita más investigación sobre la generalidad de la técnica MiniPuzzle y su aplicabilidad a otros modelos.
Se necesita un análisis más profundo del rendimiento de estabilidad y generalización del entrenamiento FP8.
Podría requerirse un análisis comparativo adicional de modelos de diferentes tamaños.
👍