Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MiniCPM4: LLM siêu hiệu quả trên thiết bị đầu cuối

Created by
  • Haebom

Tác giả

Nhóm MiniCPM, Chaojun Xiao, Yuxuan Li, Xu Han, Yuzhuo Bai, Jie Cai, Haotian Chen, Wentong Chen, Qiuzuo Li, Siyuan Li, Wenhao Li, Xianghui Sun, Peijun Tang, Fangzheng Wang, Feng Wang, Shuo Wang, Yudong Wang, Zheng Wang, Yesai Wu, Zhenyu Xiao, Jie Zhou, Jie Zhou, Wei Zhou, Yanghao Chu, Zihan Chu, Zixuan Chu, Zhiyuan Liu, Tăng Quốc Dương, Triều Gia, Đại Hải Lý, Tôn Maosong

Phác thảo

MiniCPM4 là một mô hình ngôn ngữ quy mô lớn (LLM) hiệu quả cao, được thiết kế cho các thiết bị người dùng cuối. Nó đạt được hiệu quả thông qua những cải tiến trong bốn lĩnh vực chính: kiến ​​trúc mô hình (InfLLM v2), dữ liệu huấn luyện (UltraClean, UltraChat v2), thuật toán huấn luyện (ModelTunnel v2, triển khai theo khối, BitCPM) và hệ thống suy luận (CPM.cu). InfLLM v2 là một cơ chế chú ý thưa thớt có thể huấn luyện được, giúp tăng tốc các bước điền trước và giải mã cho quá trình xử lý ngữ cảnh dài. UltraClean và UltraChat v2 là các chiến lược lọc và tạo dữ liệu tiền huấn luyện hiệu quả và chính xác, cũng như các bộ dữ liệu tinh chỉnh học có giám sát toàn diện. Sử dụng các bộ dữ liệu này, chúng tôi đã đạt được hiệu suất mô hình thỏa đáng chỉ với 8 nghìn tỷ mã thông báo huấn luyện. ModelTunnel v2 là một thuật toán cho việc tìm kiếm chiến lược tiền huấn luyện hiệu quả, cải thiện các phương pháp hậu huấn luyện hiện có thông qua triển khai theo khối và BitCPM. CPM.cu tích hợp chú ý thưa thớt, lượng tử hóa mô hình và lấy mẫu suy đoán để đạt được hiệu quả điền trước và giải mã. Để đáp ứng các yêu cầu đa dạng của thiết bị, chúng tôi giới thiệu MiniCPM4.1, một mô hình suy luận lai có hai phiên bản, với tham số 0,5B và 8B, có thể sử dụng ở cả chế độ suy luận sâu và không suy luận. Đánh giá của chúng tôi cho thấy MiniCPM4 và MiniCPM4.1 vượt trội hơn các mô hình mã nguồn mở có cùng kích thước trên các bài kiểm tra chuẩn, đặc biệt là phiên bản 8B cho thấy tốc độ tăng đáng kể trong việc hiểu và tạo chuỗi dài.

Takeaways, Limitations

Takeaways:
Thể hiện tiềm năng phát triển các mô hình ngôn ngữ quy mô lớn hoạt động hiệu quả trên các thiết bị của người dùng cuối.
Một kiến ​​trúc và thuật toán mới được trình bày để cải thiện tốc độ xử lý ngữ cảnh dài.
Giảm kích thước dữ liệu đào tạo thông qua các chiến lược lọc và tạo dữ liệu hiệu quả.
Có sẵn nhiều phiên bản mẫu khác nhau để đáp ứng nhiều yêu cầu khác nhau của thiết bị.
Cải thiện hiệu suất và tốc độ vượt trội so với các mô hình nguồn mở có kích thước tương tự.
Limitations:
Thiếu phân tích chi tiết về hiệu suất và hiệu quả của mô hình suy luận kết hợp trong MiniCPM4.1.
Cần nghiên cứu thêm để xác định khả năng tổng quát hóa của các công nghệ tiên tiến được trình bày.
Cần có một phân tích so sánh toàn diện hơn với các chương trình LLM khác.
Kích thước dữ liệu đào tạo là 8 nghìn tỷ mã thông báo vẫn còn đáng kể và cần phải nghiên cứu để tìm ra cách duy trì hiệu suất với lượng dữ liệu thậm chí còn ít hơn.
👍