Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Llama-Nemotron: Mô hình suy luận hiệu quả

Created by
  • Haebom

Tác giả

Akhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, Zach Moshe, Tomer Ronen, Najeeb Nabwani, Ido Shahaf, Oren Tropp, Ehud Karpas, Ran Zilberstein, Jiaqi Zeng, Soumye Singhal, Alexander Bukharin, Yian Zhang, Tugrul Konuk, Gerald Shen, Ameya Sunil Mahabaleshwarkar, Bilal Kartal, Yoshi Suhara, Olivier Delalleau, Zijia Chen, Zhilin Wang, David Mosallanezhad, Adi Renduchintala, Haifeng Qian, Dima Rekesh, Fei Jia, Somshubra Majumdar, Vahid Noroozi, Wasi Uddin Ahmad, Sean Narenthiran, Aleksander Ficek, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Igor Gitman, Ivan Moshkov, Ngụy Độ, Shubham Toshniwal, George Armstrong, Branislav Kisacanin, Matvei Novikov, Daria Gitman, Evelina Bakhturina, Prasoon Varshney, Makesh Narsimhan, Jane Polak Scowcroft, John Kamalu, Dan Su, Kezhi Kong, Markus Kliegl, Rabeeh Karimi Mahabadi, Ying Lin, Sanjeev Satheesh, Jupinder Parmar, Pritam Gundecha, Brandon Norick, Joseph Jennings, Shrimai Prabhumoye, Syeda Nahida Akter, Mostofa Patwary, Abhinav Khattar, Deepak Narayanan, Roger Waleffe, Jimmy Zhang, Bor-Yiing Su, Guyue Huang, Terry Kong, Parth Chadha, Sahil Jain, Christine Harvey, Elad Segal, Jining Huang, Sergey Kashirsky, Robert McQueen, Izzy Putterman, George Lam, Arun Venkatesan, Sherry Wu, Vinh Nguyen, Manoj Kilaru, Andrew Wang, Anna Warno, Abhilash Somasamudramath, Sandip Bhaskar, Maka Dong, Nave Assaf, Shahar Mor, Omer Ullman Argov, Scot Junkin, Oleksandr Romanenko, Pedro Larroy, Monika Katariya, Marco Rovinelli, Viji Balas, Nicholas Edelman, Anahita Bhiwandiwalla, Muthu Subramaniam, Smita Ithape, Karthik Ramamoorthy, Yuting Wu, Suguna Varshini Velury, Omri Almog, Joyjit Daw, Denys Fridman, Erick Galinkin, Michael Evans, Shaona Ghosh, Katherine Luna, Leon Derczynski, Nikki Pope, Eileen Long, Seth Schneider, Guillermo Siman, Tomasz Grzegorzek, Pablo Ribalta, Monika Katariya, Chris Alexiuk, Joey Conway, Trisha Saar, Ann Guan, Krzysztof Pawelec, Shyamala Prayaga, Oleksii Kuchaiev, Boris Ginsburg, Oluwatobi Olabiyi, Kari Briski, Jonathan Cohen, Bryan Catanzaro, Jonah Alben, Yonatan Geifman, Eric Chung

Phác thảo

Dòng sản phẩm Llama-Nemotron là một mô hình suy luận không đồng nhất nguồn mở mang lại hiệu suất suy luận vượt trội, tốc độ suy luận hiệu quả và giấy phép mở cho phép sử dụng thương mại. Có sẵn ở ba kích cỡ—Nano (8B), Super (49B) và Ultra (253B)—mô hình này mang lại thông lượng suy luận và hiệu quả bộ nhớ vượt trội, đồng thời có khả năng cạnh tranh với các mô hình suy luận tiên tiến như DeepSeek-R1. Mô hình này sử dụng suy luận tăng tốc bằng cách sử dụng tìm kiếm kiến ​​trúc nơ-ron (NAS) của mô hình Llama 3, chắt lọc kiến ​​thức và tiền huấn luyện bổ sung, sau đó là giai đoạn huấn luyện bổ sung dựa trên suy luận bao gồm tinh chỉnh học có giám sát và học tăng cường quy mô lớn. Đây cũng là mô hình nguồn mở đầu tiên hỗ trợ chuyển đổi suy luận động, cho phép người dùng chuyển đổi giữa chế độ trò chuyện tiêu chuẩn và chế độ suy luận trong quá trình suy luận. Chúng tôi đang phát hành các mô hình LN-Nano, LN-Super và LN-Ultra, các tập dữ liệu đào tạo bổ sung và cơ sở mã đào tạo cho NeMo, NeMo-Aligner và Megatron-LM.

Takeaways, Limitations

Takeaways:
Sự xuất hiện của các mô hình suy luận không đồng nhất quy mô lớn có sẵn dưới dạng mã nguồn mở làm giảm rào cản gia nhập vào nghiên cứu và phát triển mô hình suy luận.
Phát triển thành công một mô hình mang lại hiệu suất suy luận và hiệu quả tuyệt vời.
Tăng sự tiện lợi cho người dùng với tính năng chuyển đổi suy luận động.
Mở rộng khả năng ứng dụng trong công nghiệp bằng cách cung cấp giấy phép mở cho mục đích thương mại.
Limitations:
Bài báo này thiếu mô tả chi tiết về đánh giá hiệu suất của mô hình.
Thiếu thông tin cụ thể về quy mô và chất lượng của tập dữ liệu đào tạo bổ sung.
Cần đánh giá thêm hiệu suất tổng quát hóa trên nhiều tác vụ suy luận khác nhau.
👍