Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Jet-Nemotron: Mô hình ngôn ngữ hiệu quả với tìm kiếm kiến ​​trúc hậu nơ-ron

Created by
  • Haebom

Tác giả

Yuxian Gu, Qinghao Hu, Shang Yang, Hao Cheng Xi, Junyu Chen, Song Han, Han Cai

Phác thảo

Jet-Nemotron là một mô hình ngôn ngữ kiến ​​trúc lai mới đạt được độ chính xác tương đương hoặc vượt trội so với các mô hình toàn tâm toàn ý hiện có, đồng thời cải thiện đáng kể thông lượng tạo. Mô hình này được phát triển bằng cách sử dụng một đường ống tìm kiếm kiến ​​trúc mạng nơ-ron mới có tên là PostNAS (Tìm kiếm Kiến trúc Hậu Nơ-ron). Không giống như các phương pháp hiện có, mô hình này khám phá hiệu quả các thiết kế khối chú ý bằng cách cố định trọng số MLP dựa trên một mô hình toàn tâm toàn ý được đào tạo trước. Các thành phần chính bao gồm vị trí và loại bỏ lớp toàn tâm toàn ý tối ưu, lựa chọn khối chú ý tuyến tính, thiết kế khối chú ý mới và tìm kiếm siêu tham số nhận biết phần cứng. So với Qwen3, Qwen2.5, Gemma3 và Llama3.2, mô hình Jet-Nemotron-2B đạt được độ chính xác tương đương hoặc vượt trội trên nhiều điểm chuẩn, đồng thời đạt thông lượng tạo nhanh hơn tới 53,6 lần và tốc độ nạp trước nhanh hơn 6,1 lần. Mô hình này cũng đạt được độ chính xác cao hơn trên MMLU và MMLU-Pro so với các mô hình toàn tâm toàn ý MoE tiên tiến gần đây như DeepSeek-V3-Small và Moonlight. Điều này có thể thực hiện được mặc dù mô hình lớn hơn có tổng cộng 15 tỷ tham số và 2,2 tỷ tham số được kích hoạt.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng kiến ​​trúc kết hợp có thể cải thiện đáng kể thông lượng tạo ra trong khi vẫn duy trì độ chính xác của mô hình chú ý đầy đủ.
Chúng tôi trình bày một quy trình thiết kế mô hình hiệu quả có tên là PostNAS.
Mô hình Jet-Nemotron-2B vượt trội hơn các mô hình tiên tiến hiện có ở một số tiêu chuẩn.
ĐIều này cho thấy có thể đạt được hiệu suất cao hơn với ít tham số hơn so với các mô hình lớn hơn.
Limitations:
Cần nghiên cứu thêm để khám phá hiệu suất tổng quát của đường ống PostNAS và khả năng áp dụng của nó cho các loại mô hình khác.
Thiếu phân tích về hiệu quả năng lượng của mô hình Jet-Nemotron.
Chúng ta phải xem xét khả năng thiên vị đối với các chuẩn mực cụ thể.
Cần có phân tích sâu hơn về mối quan hệ giữa quy mô mô hình và hiệu suất.
👍