Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Nemotron-H: Một dòng mô hình Mamba-Transformer lai chính xác và hiệu quả

Created by
  • Haebom

Tác giả

NVIDIA, :, Aaron Blakeman, Aarti Basant, Abhinav Khattar, Adithya Renduchintala, Akhiad Bercovich, Aleksander Ficek, Alexis Bjorlin, Ali Taghibakhshi, Amala Sanjay Deshmukh, Ameya Sunil Mahabaleshwarkar, Andrew Tao, Anna Shors, Ashwath Aithal, Ashwin Poojary, Ayush Dattagupta, Balaram Buddharaju, Bobby Chen, Boris Ginsburg, Boxin Wang, Brandon Norick, Brian Butterfield, Bryan Catanzaro, Carlo del Mundo, Chengyu Dong, Christine Harvey, Christopher Parisien, Dan Su, Daniel Korzekwa, Danny Yin, Daria Gitman, David Mosallanezhad, Deepak Narayanan, Denys Fridman, Dima Rekesh, Ding Ma, Dmytro Pykhtar, Dong Ahn, Duncan Riach, Dusan Stosic, Eileen Long, Elad Segal, Ellie Evans, Eric Chung, Erick Galinkin, Evelina Bakhturina, Ewa Dobrowolska, Fei Jia, Fuxiao Liu, Gargi Prasad, Gerald Shen, Guilin Liu, Guo Chen, Haifeng Qian, Helen Ngo, Hongbin Liu, Hui Li, Igor Gitman, Ilia Karmanov, Ivan Moshkov, Izik Golan, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jarno Seppanen, Jason Lu, Jason Sewall, Jiaqi Zeng, Jiaxuan You, Jimmy Zhang, Jing Zhang, Jining Huang, Jinze Kirthi Sivamani, Krzysztof Pawelec, Kumar Anik, Kunlun Li, Lawrence McAfee, Leon Derczynski, Lindsey Pavao, Luis Vega, Lukas Voegtle, Maciej Bala, Maer Rodrigues de Melo, Makesh Narsimhan Sreedhar, Marcin Chochowski, Markus Kliegl, Marta Stepniewska-Dziubinska, Matthieu Lê, Matvei Novikov, Mehrzad Samadi, Michael Andersch, Michael Evans, Miguel Martinez, Mike Chrzanowski, Mike Ranzinger, Mikolaj Blaz, Misha Smelyanskiy, Mohamed Fawzy, Mohammad Shoeybi, Mostofa Patwary, Nayeon Lee, Nima Tajbakhsh, Ning Xu, Oleg Rybkov, Oleksii Kuchaiev, Olivier Delalleau, Osvald Nitski, Parth Chadha, Pasha Shamis, Paulius Micikevicius, Pavlo Molchanov, Peter Dykas, Philipp Fischer, Pierre-Yves Aquilanti, Piotr Bialecki, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Rabeeh Karimi, Rahul Kandu, Ran El-Yaniv, Raviraj Joshi, Roger Waleffe, Ruoxi Zhang, Sabrina Kavanaugh, Sahil Jain, Samuel Kriman, Sangkug Lym, Sanjeev Satheesh, Saurav Muralidharan, Sean Narenthiran, Selvaraj Anandaraj, Seonmyeong Bak, Sergey Kashirsky, Seungju Han, Shantanu Acharya, Shaona Ghosh, Sharath Turuvekere Sreenivas, Sharon Clay, Shelby Thomas, Shrimai Prabhumoye, Shubham Pachori, Shubham Toshniwal, Shyamala Prayaga, Siddhartha Jain, Sirshak Das, Slawek Kierat, Somshubra Majumdar, Song Han, Soumye Singhal, Sriharsha Niverty, Stefania Alborghetti, Suseella Panguluri, Swetha Bhendigeri, Syeda Nahida Akter, Szymon Migacz, Tal Shiri, Terry Kong, Timo Roman, Tomer Ronen, Trisha Saar, Tugrul Konuk, Tuomas Rintamaki, Tyler Poon, Ushnish De, Vahid Noroozi, Varun Singh, Vijay Korthikanti, Vitaly Kurin, Wasi Uddin Ahmad, Wei Du, Wei Ping, Wenliang Dai, Wonmin Byeon, Xiaowei Ren, Yao Xu, Yejin Choi, Yian Zhang, Ying Lin, Yoshi Suhara, Zhiding Yu, Zhiqi Li, Zhiyu Li, Zhongbo Zhu, Zhuolin Yang, Zijia Chen

Phác thảo

Bài báo này đề xuất mô hình Nemotron-H, tập trung vào việc xây dựng một mô hình hiệu quả suy luận để cải thiện khả năng mở rộng thời gian suy luận. Nemotron-H là mô hình lai Mamba-Transformer với kích thước 8B và 56B/47B. Nó thay thế hầu hết các lớp tự chú ý của các mô hình Transformer hiện có bằng các lớp Mamba có tải tính toán cố định và mức sử dụng bộ nhớ trên mỗi mã thông báo, do đó giảm chi phí suy luận. Kết quả thử nghiệm cho thấy Nemotron-H đạt được độ chính xác tương đương hoặc tốt hơn các mô hình Transformer mã nguồn mở tiên tiến khác, chẳng hạn như Qwen-2.5 và Llama-3.1, và đạt tốc độ suy luận nhanh hơn tới 3 lần. Hơn nữa, chúng tôi sử dụng một kỹ thuật cắt tỉa và chắt lọc kiến ​​thức mới gọi là MiniPuzzle để tạo ra mô hình 47B (Nemotron-H-47B-Base) từ mô hình 56B, cải thiện tốc độ suy luận lên 20%. Cuối cùng, chúng tôi giới thiệu một công thức huấn luyện dựa trên FP8 đạt được kết quả tương đương với huấn luyện dựa trên BF16 và áp dụng vào huấn luyện mô hình 56B. Chúng tôi cũng công bố các điểm kiểm tra mô hình dựa trên hỗ trợ Hugging Face và NeMo.

Takeaways, Limitations

Takeaways:
Trình bày khả năng suy luận hiệu quả bằng cách sử dụng các lớp Mamba.
ĐạT được tốc độ suy luận được cải thiện so với các mô hình tiên tiến hiện có.
Giảm kích thước mô hình và duy trì hiệu suất bằng kỹ thuật MiniPuzzle.
Trình bày phương pháp đào tạo hiệu quả sử dụng công thức đào tạo dựa trên FP8.
Cải thiện khả năng truy cập bằng cách phát hành các mô hình dưới dạng mã nguồn mở.
Limitations:
Cần nghiên cứu thêm để xác định liệu những cải tiến về hiệu suất của lớp Mamba có thể được áp dụng cho mọi loại tác vụ hay không.
Cần có thêm nghiên cứu về tính tổng quát của kỹ thuật MiniPuzzle và khả năng áp dụng của nó vào các mô hình khác.
Cần có thêm phân tích sâu hơn về tính ổn định và hiệu suất tổng quát của đào tạo FP8.
Có thể cần phải phân tích so sánh thêm các mô hình có kích thước khác nhau.
👍