Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

NVIDIA Nemotron Nano 2: Un modelo de razonamiento híbrido Mamba-Transformer preciso y eficiente

Created by
  • Haebom

Autor

NVIDIA, :, Aarti Basant, Abhijit Khairnar, Abhijit Paithankar, Abhinav Khattar, Adithya Renduchintala, Aditya Malte, Akhiad Bercovich, Akshay Hazare, Alejandra Rico, Aleksander Ficek, Alex Kondratenko, Alex Shaposhnikov, Alexander Bukharin, Ali Taghibakhshi, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amy Shen, Andrew Tao, Ann Guan, Anna Shors, Anubhav Mandarwal, Arham Mehta, Arun Venkatesan, Ashton Sharabiani, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Banghua Zhu, Barnaby Simkin, Bilal Kartal, Bita Darvish Rouhani, Bobby Chen, Boris Ginsburg, Brandon Norick, Brian Yu, Bryan Catanzaro, Charles Wang, Charlie Truong, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christian Munley, Christopher Parisien, Dan Su, Daniel Afrimi, Daniel Korzekwa, Daniel Rohrer, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Dima Rekesh, Dina Yared, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Eileen Long, Elliott Ning, Eric Chung, Erick Galinkin, Evelina Bakhturina, Gargi Prasad, Gerald Shen, Haifeng Qian, Haim Elisha, Harsh Sharma, Hayley Ross, Helen Ngo, Herman Sahota, Hexin Wang, Hoo Chang Shin, Hua Huang, Iain Cunningham, Igor Gitman, Ivan Moshkov, Jaehun Jung, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jian Zhang, Jiaqi Zeng, Jimmy Zhang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jonathan Cohen, Joseph Jennings, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kezhi Kong, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Kushan Ahmadian, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Luis Vega, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Mark Cai, Markus Kliegl, Marta Stepniewska-Dziubinska, Matvei Novikov, Mehrzad Samadi, Meredith Price, Meriem Boubdir, Michael Boone, Michael Evans, Michal Bien, Michal Zawalski, Miguel Martinez, Mike Chrzanowski, Mohammad Shoeybi, Mostofa Patwary, Namit Dhameja, Nave Assaf, Negar Habibi, Nidhi Bhatia, Nikki Papa, Nima Tajbakhsh, Nirmal Kumar Juluru, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Oluwatobi Olabiyi, Pablo Ribalta, Padmavathy Subramanian, Parth Chadha, Pavlo Molchanov, Peter Dykas, Peter Jin, Piotr Bialecki, Piotr Januszewski, Pradeep Thalasta, Prashant Gaikwad, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi Mahabadi, Rajen Patel, Ran El-Yaniv, Ranjit Rajan, Ria Cheruvu, Rima Shahbazyan, Ritika Borkar, Ritu Gala, Roger Waleffe, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger; Sahil Jain, Samuel Kriman, Sanjeev Satheesh, Saori Kaji, Sarah Yurick, Saurav Muralidharan, Sean Narenthiran, Seonmyeong Bak, Sepehr Sameni, Seungju Han, Shanmugam Ramasamy, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shizhe Diao, Shreya Gopal, Shrimai Prabhumoye, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Siddhartha Jain, Somshubra Majumdar, Soumye Singhal, Stefania Alborghetti, Syeda Nahida Akter, Terry Kong, Tim Moon, Tomasz Hliwiak, Tomer Asida, Tony Wang, Tugrul Konuk, Twinkle Vashishth, Tyler Poon, Udi Karpas, Vahid Noroozi, Venkat Srinivasan, Vijay Korthikanti, Vikram Fugro, Vineeth Kalluru, Vitaly Kurin, Vitaly Lavrukhin, Wasi Uddin Ahmad, Wei Du, Wonmin Byeon, Ximing Lu, Xin Dong, Yashaswi Karnati, Yejin Choi, Yian Zhang, Ying Lin, Yonggan Fu, Yoshi Suhara, Zhen Dong, Zhiyu Li, Zhongbo Zhu, Zijia Chen

Describir

Nemotron-Nano-9B-v2 es un modelo de lenguaje híbrido Mamba-Transformer diseñado para lograr una precisión de vanguardia en comparación con modelos comparables, a la vez que aumenta el rendimiento de inferencia. Basado en la arquitectura Nemotron-H, reemplaza la mayoría de las capas de autoatención de las arquitecturas Transformer convencionales con capas Mamba-2, lo que mejora la velocidad de inferencia al generar los largos procesos de pensamiento necesarios. Tras preentrenar un modelo de 12 mil millones de parámetros (Nemotron-Nano-12B-v2-Base) con 20 billones de tokens utilizando la receta de aprendizaje FP8, el modelo se comprime y destila utilizando la estrategia Minitron, lo que permite la inferencia con hasta 128 000 tokens en una sola GPU NVIDIA A10G (memoria de 22 GiB, precisión bfloat16). En comparación con modelos convencionales de tamaño similar (p. ej., Qwen3-8B), Nemotron-Nano-9B-v2 alcanza un rendimiento de inferencia hasta 6 veces superior en configuraciones como 8k tokens de entrada y 16k tokens de salida, a la vez que alcanza una precisión comparable o superior en las pruebas de referencia de inferencia. Estamos lanzando los puntos de control de Nemotron-Nano-9B-v2, Nemotron-Nano12B-v2-Base y Nemotron-Nano-9B-v2-Base, así como la mayoría de los conjuntos de datos previos y posteriores al entrenamiento, a Hugging Face.

Takeaways, Limitations

Takeaways:
Demostramos que la arquitectura Mamba-Transformer puede mejorar significativamente el rendimiento de la inferencia manteniendo una precisión a nivel de modelo comparable.
Presentamos optimización del tamaño del modelo y estrategias de inferencia eficientes para permitir el procesamiento de hasta 128k tokens en una sola GPU.
Contribuya a la investigación y el desarrollo publicando modelos y conjuntos de datos previamente entrenados.
Limitations:
Las mejoras de rendimiento presentadas en este documento se midieron en un entorno de hardware específico (GPU NVIDIA A10G) y el rendimiento puede variar en otros entornos de hardware.
Se necesita más investigación para explorar el rendimiento de generalización de la arquitectura Mamba-Transformer y su aplicabilidad a diversas tareas.
Durante la reducción del tamaño del modelo puede producirse una degradación de la precisión, y se necesita más investigación para minimizarla.
👍