Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

BASE-Q: Lượng tử hóa quay nâng cao cho các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Liulu He, Shenli Zheng, Karwei Sun, Yijiang Liu, Yufei Zhao, Chongkang Tan, Huanrui Yang, Yuan Du, Li Du

Phác thảo

Bài báo này giới thiệu BASE-Q, một phương pháp được đề xuất nhằm nâng cao hiệu quả của các kỹ thuật xoay trong quy trình lượng tử hóa của các mô hình ngôn ngữ quy mô lớn (LLM). Các phương pháp lượng tử hóa dựa trên xoay hiện tại gặp phải tình trạng sai lệch trung bình kênh và lỗi làm tròn và cắt xén gia tăng do phân phối kích hoạt Gauss. BASE-Q giảm thiểu hiệu quả các lỗi này bằng cách kết hợp hiệu chỉnh độ lệch và tỷ lệ bất đối xứng. Hơn nữa, nó loại bỏ việc lan truyền ngược toàn mô hình tốn bộ nhớ thông qua tối ưu hóa từng khối. Kết quả thử nghiệm trên nhiều LLM và chuẩn mực khác nhau cho thấy BASE-Q giảm tổn thất độ chính xác lần lượt là 50,5%, 42,9% và 29,2% so với các phương pháp hiện có (QuaRot, SpinQuant và OSTQuant).

Takeaways, Limitations

Takeaways:
Chúng tôi đã trình bày rõ ràng Limitations (không căn chỉnh được các giá trị trung bình của kênh, lỗi tăng do phân phối chuẩn Gauss) của phương pháp lượng tử hóa dựa trên phép quay hiện có và đề xuất một phương pháp hiệu quả (BASE-Q) để giải quyết những vấn đề này.
BASE-Q cải thiện đáng kể hiệu quả bộ nhớ thông qua tối ưu hóa cấp khối.
Nó cho thấy sự cải thiện hiệu suất tuyệt vời so với các phương pháp hiện có trong nhiều LLM và chuẩn mực khác nhau.
Limitations:
Mã vẫn chưa được phát hành.
Kết quả thử nghiệm trên nhiều LLM và chuẩn mực khác nhau được trình bày, nhưng có thể thiếu phân tích về các trường hợp hiệu suất quá tốt hoặc quá tệ đối với một LLM hoặc chuẩn mực cụ thể.
Có thể còn thiếu mô tả chi tiết về chiến lược tối ưu hóa cấp khối của BASE-Q.
👍