Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Llama-Nemotron: Efficient Reasoning Models

Created by
  • Haebom

作者

Akhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, Zach Moshe, Tomer Ronen, Najeeb Nabwani, Ido Shahaf, Oren Tropp, Ehud Karpas, Ran Zilberstein, Jiaqi Zeng, Souyeang Konuk, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Olivier Delalleau, Zijia Chen, Zhilin Wang, David Mosallanezhad, Adi Renduchintala, Haifeng Qian, Dima Rekesh, Fei Jia, Somshubra Majumdar, Vahid Narenthiran, Aleksander Ficek, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Igor Gitman, Ivan Moshkov, Wei Du, Shubham Toshniwal, George Armstrong, Branislav Kisacanin, Matvei Novikov, Daria Gitman, Evelina Bakhturney, Praso Scowcroft, John Kamalu, Dan Su, Kezhi Kong, Markus Kliegl, Rabeeh Karimi Mahabadi, Ying Lin, Sanjeev Satheesh, Jupinder Parmar, Pritam Gundecha, Brandon Norick, Joseph Jennings, Shrimai Prabhumoye, Syeda Nahida Akter, Mosto Narayanan、Roger Waleffe、Jimmy Zhang、Bor-Yiing Su、Guyue Huang、Terry Kong、Parth Chadha、Sahil Jain、Christine Harvey、Elad Segal、Jinning Huang、Sergey Kashirsky、Robert McQueen、Izzy Putterman、George Lam、Arun Venkatesan、 Andrew Wang、Anna Warno、Abhilash Somasamudramath、Sandip Bhaskar、Maka Dong、Nave Assaf、Shahar Mor、Omer Ullman Argov、Scot Junkin、Oleksandr Romanenko、Pedro Larroy、Monika Katariya、Marco Rovinelli、Viji Balas、Nicholas Edelman、Sanahara Ithape, Karthik Ramamoorthy, Yuting Wu, Suguna Varshini Velury, Omri Almog, Joyjit Daw, Denys Fridman, Erick Galinkin, Michael Evans, Shaona Ghosh, Katherine Luna, Leon Derczynski, Nikki Pope, Eileen Long, Seth Schneider Ribalta、Monika Katariya、Chris Alexiuk、Joey Conway、Trisha Saar、Ann Guan、Krzysztof Pawelec、Shyamala Prayaga、Oleksii Kuchaiev、Boris Ginsburg、Oluwatobi Olabiyi、Kari Briski、Jonathan Cohen、Bryan Catanzaro、Jonahung Alben、

概要

Llama-Nemotronシリーズは、優れた推論能力、効率的な推論速度、および市販のオープンライセンスを提供するオープンソースの異種推論モデルです。 Nano(8B)、Super(49B)、Ultra(253B)の3つのサイズがあり、DeepSeek-R1などの最先端の推論モデルと競争力を持ちながら、優れた推論スループットとメモリ効率を提供します。 Llama 3モデルのニューラルネットワーク構造探索を用いた加速化された推論、知識の蒸留、および追加の事前学習を経た後、地図学習の微調整と大規模な強化学習からなる推論中心のさらなる学習段階を経ます。また、ユーザーが推論中に標準チャットモードと推論モードを切り替えることができる動的推論トグルをサポートする最初のオープンソースモデルです。 LN-Nano、LN-Super、LN-Ultraモデルと追加の学習データセット、およびNeMo、NeMo-Aligner、Megatron-LMなどの学習コードベースを公開します。

Takeaways、Limitations

Takeaways:
オープンソースとして提供される大規模な異種推論モデルの登場により、推論モデルの研究開発の進入障壁が低くなる。
優れた推論性能と効率を同時に提供するモデルの開発成功
動的推論トグル機能によるユーザの利便性の向上
商業的に利用可能なオープンライセンスを提供することで、産業的利用可能性を拡大。
Limitations:
本論文ではモデルの性能評価の詳細な説明が不足している。
追加の学習データセットの規模と品質に関する具体的な情報不足。
様々な推論課題に対する一般化性能の追加評価が必要
👍