Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models

Created by
  • Haebom

저자

NVIDIA, :, Aaron Blakeman, Aarti Basant, Abhinav Khattar, Adithya Renduchintala, Akhiad Bercovich, Aleksander Ficek, Alexis Bjorlin, Ali Taghibakhshi, Amala Sanjay Deshmukh, Ameya Sunil Mahabaleshwarkar, Andrew Tao, Anna Shors, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Bobby Chen, Boris Ginsburg, Boxin Wang, Brandon Norick, Brian Butterfield, Bryan Catanzaro, Carlo del Mundo, Chengyu Dong, Christine Harvey, Christopher Parisien, Dan Su, Daniel Korzekwa, Danny Yin, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Denys Fridman, Dima Rekesh, Ding Ma, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Dusan Stosic, Eileen Long, Elad Segal, Ellie Evans, Eric Chung, Erick Galinkin, Evelina Bakhturina, Ewa Dobrowolska, Fei Jia, Fuxiao Liu, Gargi Prasad, Gerald Shen, Guilin Liu, Guo Chen, Haifeng Qian, Helen Ngo, Hongbin Liu, Hui Li, Igor Gitman, Ilia Karmanov, Ivan Moshkov, Izik Golan, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jarno Seppanen, Jason Lu, Jason Sewall, Jiaqi Zeng, Jiaxuan You, Jimmy Zhang, Jing Zhang, Jining Huang, Jinze Xue, Jocelyn Huang, Joey Conway, John Kamalu, Jon Barker, Jonathan Cohen, Joseph Jennings, Jupinder Parmar, Karan Sapra, Kari Briski, Kateryna Chumachenko, Katherine Luna, Keshav Santhanam, Kezhi Kong, Kirthi Sivamani, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Lawrence McAfee, Leon Derczynski, Lindsey Pavao, Luis Vega, Lukas Voegtle, Maciej Bala, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Markus Kliegl, Marta Stepniewska-Dziubinska, Matthieu Le, Matvei Novikov, Mehrzad Samadi, Michael Andersch, Michael Evans, Miguel Martinez, Mike Chrzanowski, Mike Ranzinger, Mikolaj Blaz, Misha Smelyanskiy, Mohamed Fawzy, Mohammad Shoeybi, Mostofa Patwary, Nayeon Lee, Nima Tajbakhsh, Ning Xu, Oleg Rybakov, Oleksii Kuchaiev, Olivier Delalleau, Osvald Nitski, Parth Chadha, Pasha Shamis, Paulius Micikevicius, Pavlo Molchanov, Peter Dykas, Philipp Fischer, Pierre-Yves Aquilanti, Piotr Bialecki, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi, Rahul Kandu, Ran El-Yaniv, Raviraj Joshi, Roger Waleffe, Ruoxi Zhang, Sabrina Kavanaugh, Sahil Jain, Samuel Kriman, Sangkug Lym, Sanjeev Satheesh, Saurav Muralidharan, Sean Narenthiran, Selvaraj Anandaraj, Seonmyeong Bak, Sergey Kashirsky, Seungju Han, Shantanu Acharya, Shaona Ghosh, Sharath Turuvekere Sreenivas, Sharon Clay, Shelby Thomas, Shrimai Prabhumoye, Shubham Pachori, Shubham Toshniwal, Shyamala Prayaga, Siddhartha Jain, Sirshak Das, Slawek Kierat, Somshubra Majumdar, Song Han, Soumye Singhal, Sriharsha Niverty, Stefania Alborghetti, Suseella Panguluri, Swetha Bhendigeri, Syeda Nahida Akter, Szymon Migacz, Tal Shiri, Terry Kong, Timo Roman, Tomer Ronen, Trisha Saar, Tugrul Konuk, Tuomas Rintamaki, Tyler Poon, Ushnish De, Vahid Noroozi, Varun Singh, Vijay Korthikanti, Vitaly Kurin, Wasi Uddin Ahmad, Wei Du, Wei Ping, Wenliang Dai, Wonmin Byeon, Xiaowei Ren, Yao Xu, Yejin Choi, Yian Zhang, Ying Lin, Yoshi Suhara, Zhiding Yu, Zhiqi Li, Zhiyu Li, Zhongbo Zhu, Zhuolin Yang, Zijia Chen

개요

본 논문은 추론 시간 확장성을 향상시키기 위해 추론 효율적인 모델을 구축하는 데 중점을 둔 Nemotron-H 모델을 제안합니다. Nemotron-H는 8B와 56B/47B 크기의 Mamba-Transformer 하이브리드 모델로, 기존 Transformer 모델의 셀프 어텐션 레이어 대부분을 일정한 계산량과 토큰당 메모리 사용량을 갖는 Mamba 레이어로 대체하여 추론 비용을 절감합니다. 실험 결과, Nemotron-H는 Qwen-2.5와 Llama-3.1 등 다른 최첨단 오픈소스 Transformer 모델들과 비슷하거나 더 나은 정확도를 보이며, 최대 3배 빠른 추론 속도를 달성합니다. 또한, MiniPuzzle이라는 새로운 가지치기 및 지식 증류 기법을 사용하여 56B 모델에서 47B 모델(Nemotron-H-47B-Base)을 생성하여 추론 속도를 20% 향상시켰습니다. 마지막으로, BF16 기반 훈련과 동등한 결과를 얻는 FP8 기반 훈련 레시피를 소개하며, 이를 56B 모델 훈련에 적용했습니다. Hugging Face와 NeMo 지원 기반 모델 체크포인트를 공개합니다.

시사점, 한계점

시사점:
Mamba 레이어를 활용한 효율적인 추론 가능성 제시.
기존 최첨단 모델들과 비교하여 향상된 추론 속도 달성.
MiniPuzzle 기법을 통한 모델 크기 축소 및 성능 유지.
FP8 기반 훈련 레시피를 통한 효율적인 훈련 방법 제시.
오픈소스로 모델 공개를 통한 접근성 향상.
한계점:
Mamba 레이어의 성능 향상이 모든 유형의 작업에 일반화될 수 있는지에 대한 추가 연구 필요.
MiniPuzzle 기법의 일반성 및 다른 모델에 대한 적용 가능성에 대한 추가 연구 필요.
FP8 훈련의 안정성 및 일반화 성능에 대한 더욱 심층적인 분석 필요.
다양한 크기의 모델에 대한 비교 분석이 추가적으로 필요할 수 있음.
👍