Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

BitDecoding: Mở khóa lõi Tensor cho LLM ngữ cảnh dài với bộ đệm KV bit thấp

Created by
  • Haebom

Tác giả

Dayou Du, Shijie Cao, Jianyi Cheng, Luo Mai, Ting Cao, Mao Yang

Phác thảo

Bài báo này đề xuất BitDecoding, một hệ thống suy luận mới tận dụng bộ nhớ đệm KV bit thấp để giải quyết nhu cầu bộ nhớ và băng thông ngày càng tăng của suy luận mô hình ngôn ngữ quy mô lớn (LLM) ngữ cảnh dài. BitDecoding cho phép giải mã bộ nhớ đệm KV bit thấp hiệu quả bằng cách kết hợp tận dụng lõi CUDA và lõi Tensor. Hệ thống bao gồm các kỹ thuật như tự động tạo ra các bố cục tối ưu cho việc sử dụng và giải lượng tử hóa lõi Tensor thông qua các chiến lược song song hóa cấp độ warp. Hệ thống cũng cung cấp hỗ trợ hệ thống thống nhất thông qua một mô-đun chuyển đổi truy vấn hỗ trợ nhiều biến thể chú ý khác nhau, một hạt nhân lượng tử hóa hiệu suất cao hỗ trợ việc mở rộng theo từng tensor và từng kênh được sử dụng trong nhiều thuật toán lượng tử hóa khác nhau, và một hạt nhân giải lượng tử hóa với một đường ống được xác định bằng phần mềm để điều phối việc thực thi CUDA và lõi Tensor. Các đánh giá trên RTX 4090, A100 và H100 cho thấy BitDecoding mang lại tốc độ giải mã nhanh hơn tới 7,5 lần, 4,8 lần và 8,9 lần so với FP16 FlashDecoding-v2, và vượt trội hơn hệ thống bitrate thấp QServe hiện đại tới 4,3 lần. Những cải tiến đáng kể cũng được ghi nhận đối với việc tạo ngữ cảnh dài, bao gồm giảm tới 3 lần độ trễ giải mã hàng loạt đơn trên LLaMA-3.1-8B với ngữ cảnh 128K. Mã nguồn có sẵn trên GitHub.

Takeaways, Limitations

Takeaways:
Chúng tôi đã cải thiện đáng kể hiệu suất giải mã bộ đệm KV bit thấp bằng cách tận dụng lõi CUDA và lõi Tensor song song.
Chúng tôi đã xây dựng một hệ thống tích hợp có khả năng tương thích với nhiều thuật toán lượng tử hóa và LLM khác nhau.
Chúng tôi đã cải thiện đáng kể tốc độ và hiệu quả của suy luận LLM dài hạn, tăng tiềm năng ứng dụng thực tế của nó.
Kết quả thực nghiệm chứng minh rõ ràng tính ưu việt của phương pháp đề xuất.
Limitations:
ĐượC tối ưu hóa cho kiến trúc GPU cụ thể, hiệu suất trên các kiến trúc khác có thể khác nhau.
Có thể cần nghiên cứu thêm về hiệu suất tổng quát của các mô hình LLM khác nhau.
Cần đánh giá hiệu suất cho ngữ cảnh có độ dài lớn hơn.
👍