Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Báo cáo kỹ thuật SpikingBrain: Các mô hình lớn lấy cảm hứng từ Spiking Brain
Created by
Haebom
Tác giả
Yuqi Pan, Yupeng Feng, Jinghao Zhuang, Siyu Ding, Zehao Liu, Bohan Sun, Yuhong Chou, Han Xu, Xuerui Qiu, Anlin Đặng, Anjie Hu, Peng Chu, Man Yao, Jibin Wu, Jian Yang, Guoliang Sun, Bo Xu, Guoqi Li
Phác thảo
Bài báo này đề xuất mô hình SpikingBrain lấy cảm hứng từ não bộ để giải quyết các nút thắt về hiệu quả (tăng theo bậc hai độ phức tạp tính toán và tăng tuyến tính bộ nhớ) của các mô hình ngôn ngữ quy mô lớn dựa trên Transformer hiện có. Tận dụng cụm GPU MetaX, chúng tôi đã phát triển hai mô hình, SpikingBrain-7B (LLM tuyến tính) và SpikingBrain-76B (LLM MoE tuyến tính lai), tập trung vào ba khía cạnh: kiến trúc chú ý tuyến tính và lai tuyến tính, các đường ống học tập dựa trên chuyển đổi hiệu quả, một khuôn khổ mã hóa đột biến chuyên dụng, một khuôn khổ học tập tùy chỉnh và các chiến lược xử lý song song. Các mô hình này chứng minh tính khả thi của việc phát triển LLM quy mô lớn trên các nền tảng không phải của NVIDIA và đạt được hiệu suất tương tự như mô hình cơ sở Transformer nguồn mở với số lượng mã thông báo ít hơn đáng kể (khoảng 150B). Đặc biệt, chúng cải thiện đáng kể hiệu quả của việc học chuỗi dài và thực hiện suy luận với bộ nhớ hằng số (một phần) và hành vi đột biến theo sự kiện. Ví dụ, SpikingBrain-7B giảm thời gian tạo mã thông báo đầu tiên trong chuỗi 4M mã thông báo hơn 100 lần. Duy trì quá trình huấn luyện ổn định trong nhiều tuần trên hàng trăm GPU MetaX C550, mô hình 7B đạt tỷ lệ sử dụng FLOPs mô hình 23,4% và độ thưa thớt 69,15%, cho phép hoạt động ở mức công suất thấp.
Takeaways, Limitations
•
Takeaways:
◦
Đề Xuất khả năng phát triển LLM quy mô lớn trên các nền tảng không phải của NVIDIA
◦
Cải thiện hiệu quả xử lý văn bản dài bằng cách sử dụng các mô hình lấy cảm hứng từ não bộ
◦
Cải thiện hiệu quả học tập và suy luận so với các mô hình dựa trên Transformer hiện có (đặc biệt là xử lý chuỗi dài)
◦
Khả năng hoạt động công suất thấp
◦
Tốc độ tạo mã thông báo ban đầu tuyệt vời
•
Limitations:
◦
Một hệ thống được thiết kế riêng cho cụm GPU MetaX, yêu cầu xác minh khả năng di động sang các nền tảng khác.
◦
Việc so sánh hiệu suất của mô hình đề xuất chỉ giới hạn ở mô hình tham chiếu Transformer mã nguồn mở. Cần phải phân tích so sánh với nhiều mô hình tiên tiến khác nhau.
◦
Cần nghiên cứu thêm để xác định hiệu suất tổng quát của mô hình SpikingBrain và khả năng áp dụng của nó vào nhiều nhiệm vụ khác nhau.
◦
Kích thước mô hình (7B, 76B) là trung bình so với các mô hình ngôn ngữ quy mô lớn khác, do đó cần phải phát triển một mô hình quy mô lớn hơn và đánh giá hiệu suất.