Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

Created by
  • Haebom

저자

NVIDIA, :, Aarti Basant, Abhijit Khairnar, Abhijit Paithankar, Abhinav Khattar, Adithya Renduchintala, Aditya Malte, Akhiad Bercovich, Akshay Hazare, Alejandra Rico, Aleksander Ficek, Alex Kondratenko, Alex Shaposhnikov, Alexander Bukharin, Ali Taghibakhshi, Amelia Barton, Ameya Sunil Mahabaleshwarkar, Amy Shen, Andrew Tao, Ann Guan, Anna Shors, Anubhav Mandarwal, Arham Mehta, Arun Venkatesan, Ashton Sharabiani, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Banghua Zhu, Barnaby Simkin, Bilal Kartal, Bita Darvish Rouhani, Bobby Chen, Boris Ginsburg, Brandon Norick, Brian Yu, Bryan Catanzaro, Charles Wang, Charlie Truong, Chetan Mungekar, Chintan Patel, Chris Alexiuk, Christian Munley, Christopher Parisien, Dan Su, Daniel Afrimi, Daniel Korzekwa, Daniel Rohrer, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Dima Rekesh, Dina Yared, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Eileen Long, Elliott Ning, Eric Chung, Erick Galinkin, Evelina Bakhturina, Gargi Prasad, Gerald Shen, Haifeng Qian, Haim Elisha, Harsh Sharma, Hayley Ross, Helen Ngo, Herman Sahota, Hexin Wang, Hoo Chang Shin, Hua Huang, Iain Cunningham, Igor Gitman, Ivan Moshkov, Jaehun Jung, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jian Zhang, Jiaqi Zeng, Jimmy Zhang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jonathan Cohen, Joseph Jennings, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kari Briski, Katherine Cheung, Katherine Luna, Keith Wyss, Keshav Santhanam, Kezhi Kong, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Kushan Ahmadian, Lawrence McAfee, Laya Sleiman, Leon Derczynski, Luis Vega, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Mark Cai, Markus Kliegl, Marta Stepniewska-Dziubinska, Matvei Novikov, Mehrzad Samadi, Meredith Price, Meriem Boubdir, Michael Boone, Michael Evans, Michal Bien, Michal Zawalski, Miguel Martinez, Mike Chrzanowski, Mohammad Shoeybi, Mostofa Patwary, Namit Dhameja, Nave Assaf, Negar Habibi, Nidhi Bhatia, Nikki Pope, Nima Tajbakhsh, Nirmal Kumar Juluru, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Oluwatobi Olabiyi, Pablo Ribalta, Padmavathy Subramanian, Parth Chadha, Pavlo Molchanov, Peter Dykas, Peter Jin, Piotr Bialecki, Piotr Januszewski, Pradeep Thalasta, Prashant Gaikwad, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi Mahabadi, Rajen Patel, Ran El-Yaniv, Ranjit Rajan, Ria Cheruvu, Rima Shahbazyan, Ritika Borkar, Ritu Gala, Roger Waleffe, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Sahil Jain, Samuel Kriman, Sanjeev Satheesh, Saori Kaji, Sarah Yurick, Saurav Muralidharan, Sean Narenthiran, Seonmyeong Bak, Sepehr Sameni, Seungju Han, Shanmugam Ramasamy, Shaona Ghosh, Sharath Turuvekere Sreenivas, Shelby Thomas, Shizhe Diao, Shreya Gopal, Shrimai Prabhumoye, Shubham Toshniwal, Shuoyang Ding, Siddharth Singh, Siddhartha Jain, Somshubra Majumdar, Soumye Singhal, Stefania Alborghetti, Syeda Nahida Akter, Terry Kong, Tim Moon, Tomasz Hliwiak, Tomer Asida, Tony Wang, Tugrul Konuk, Twinkle Vashishth, Tyler Poon, Udi Karpas, Vahid Noroozi, Venkat Srinivasan, Vijay Korthikanti, Vikram Fugro, Vineeth Kalluru, Vitaly Kurin, Vitaly Lavrukhin, Wasi Uddin Ahmad, Wei Du, Wonmin Byeon, Ximing Lu, Xin Dong, Yashaswi Karnati, Yejin Choi, Yian Zhang, Ying Lin, Yonggan Fu, Yoshi Suhara, Zhen Dong, Zhiyu Li, Zhongbo Zhu, Zijia Chen

개요

Nemotron-Nano-9B-v2는 추론 작업의 처리량을 높이면서 동일한 크기의 모델과 비교하여 최첨단 정확도를 달성하도록 설계된 하이브리드 Mamba-Transformer 언어 모델입니다. Nemotron-H 아키텍처를 기반으로, 일반적인 Transformer 아키텍처의 대부분의 self-attention 레이어를 Mamba-2 레이어로 대체하여 추론에 필요한 긴 사고 과정을 생성할 때 추론 속도를 향상시킵니다. 먼저 20조 토큰을 사용하여 120억 매개변수 모델(Nemotron-Nano-12B-v2-Base)을 FP8 학습 레시피로 사전 학습하고, Minitron 전략을 사용하여 모델을 압축 및 증류하여 단일 NVIDIA A10G GPU(22GiB 메모리, bfloat16 정밀도)에서 최대 128k 토큰에 대한 추론을 가능하게 합니다. 유사한 크기의 기존 모델(예: Qwen3-8B)과 비교하여, Nemotron-Nano-9B-v2는 추론 벤치마크에서 동등하거나 더 나은 정확도를 달성하는 동시에 8k 입력 및 16k 출력 토큰과 같은 추론 설정에서 최대 6배 더 높은 추론 처리량을 달성합니다. Nemotron-Nano-9B-v2, Nemotron-Nano-12B-v2-Base 및 Nemotron-Nano-9B-v2-Base 체크포인트와 대부분의 사전 및 사후 학습 데이터 세트를 Hugging Face에 공개합니다.

시사점, 한계점

시사점:
Mamba-Transformer 아키텍처를 통해 추론 작업의 처리량을 기존 모델 대비 최대 6배 향상시켰습니다.
유사한 크기의 모델과 비교하여 동등하거나 더 나은 정확도를 달성했습니다.
128k 토큰까지의 긴 텍스트 처리를 단일 NVIDIA A10G GPU에서 가능하게 했습니다.
모델과 데이터셋을 Hugging Face에 공개하여 접근성을 높였습니다.
한계점:
본 논문에서는 구체적인 한계점이 명시적으로 언급되지 않았습니다. 추가적인 실험이나 비교 분석을 통해 더욱 명확해질 수 있습니다.
특정 하드웨어(NVIDIA A10G GPU)에 대한 최적화가 이루어졌으므로, 다른 하드웨어 환경에서는 성능이 달라질 수 있습니다.
사전 학습 데이터셋의 구성과 품질에 대한 자세한 정보가 부족합니다.
👍