Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

PTQ1.61: Đẩy mạnh giới hạn thực sự của các phương pháp lượng tử hóa sau đào tạo bit cực thấp cho các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Jiaqi Zhao, Miao Zhang, Ming Wang, Yuzhang Shang, Kaihao Zhang, Weili Guan, Yaowei Wang, Min Zhang

Phác thảo

Để Giải quyết vấn đề các mô hình ngôn ngữ quy mô lớn (LLM) bị suy giảm hiệu suất nghiêm trọng trong quá trình lượng tử hóa bit cực thấp (<2 bit), bài báo này đề xuất PTQ1.61, một phương pháp lượng tử hóa sau huấn luyện bit cực thấp (PTQ) mới cho phép lượng tử hóa trọng số 1,61 bit. Trong khi các phương pháp hiện có sử dụng nhiều hơn 1 bit bổ sung cho mỗi trọng số, PTQ1.61 giới thiệu một mặt nạ có cấu trúc một chiều dựa trên các kích hoạt đầu vào chỉ sử dụng một bit bổ sung không đáng kể 0,0002 bit, phân bổ 4 bit cho các kênh trọng số quan trọng và thực hiện nhị phân hóa trên các kênh không quan trọng thông qua khuôn khổ tối ưu hóa hệ số tỷ lệ theo khối. Hơn nữa, chúng tôi trình bày một mô hình tiền xử lý lượng tử hóa mới giúp giảm bớt những khó khăn của PTQ kênh bit cực thấp cụ thể bằng cách biến đổi phân phối trọng số của một mô hình được huấn luyện trước khi lượng tử hóa. Kết quả thực nghiệm chứng minh rằng PTQ1.61 đạt được hiệu suất tiên tiến trong quá trình lượng tử hóa bit cực thấp.

Takeaways, Limitations

Takeaways:
Nó đưa ra khả năng giảm đáng kể mức sử dụng bộ nhớ và tải tính toán của LLM thông qua lượng tử hóa bit cực thấp là 1,61 bit.
Chúng tôi trình bày một phương pháp PTQ tốc độ bit cực thấp mới khắc phục được những hạn chế của các phương pháp trộn chính xác thông thường.
Chúng tôi trình bày một phương pháp mới để giải quyết những thách thức của lượng tử hóa bit cực thấp thông qua một mô hình mới gọi là tiền xử lý lượng tử hóa.
Kết quả thử nghiệm xác minh hiệu suất tuyệt vời của PTQ1.61.
Limitations:
Cần nghiên cứu thêm để xác định liệu phương pháp đề xuất có đảm bảo hiệu suất như nhau cho mọi loại LLM hay không.
Cần cân nhắc đến việc triển khai thực tế và hỗ trợ phần cứng cho lượng tử hóa 1,61 bit.
Cần nghiên cứu thêm để xác định khả năng khái quát hóa của bước tiền xử lý lượng tử được đề xuất.
👍