Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Lượng tử hóa đáp ứng dLLM: Một nghiên cứu có hệ thống về lượng tử hóa sau đào tạo cho LLM khuếch tán

Created by
  • Haebom

Tác giả

Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun

Phác thảo

Bài báo này trình bày nghiên cứu có hệ thống đầu tiên về lượng tử hóa bit thấp của các mô hình ngôn ngữ quy mô lớn (dLLM) dựa trên khuếch tán. Không giống như các mô hình ngôn ngữ quy mô lớn (LLM) tự hồi quy (AR), các mô hình dLLM sử dụng các chiến lược giải mã dựa trên sự chú ý đầy đủ và khử nhiễu. Tuy nhiên, kích thước tham số lớn và yêu cầu tài nguyên cao của chúng cản trở việc triển khai trên các thiết bị biên. Nghiên cứu này khám phá vấn đề ngoại lệ trong các giá trị kích hoạt trong các mô hình dLLM và, sử dụng các kỹ thuật PTQ tiên tiến, thực hiện đánh giá toàn diện trên nhiều khía cạnh, bao gồm độ rộng bit, phương pháp lượng tử hóa, loại tác vụ và loại mô hình. Thông qua đó, chúng tôi mong muốn cung cấp những hiểu biết thực tế về hành vi lượng tử hóa của các mô hình dLLM và đặt nền tảng cho việc triển khai dLLM hiệu quả.

Takeaways, Limitations

_____T110373____-:
Chúng tôi trình bày nghiên cứu có hệ thống đầu tiên về lượng tử hóa bit thấp của dLLM.
Xác định vấn đề giá trị kích hoạt ngoại lệ xảy ra trong quá trình lượng tử hóa dLLM
Phân tích hiệu suất lượng tử hóa dLLM ở nhiều khía cạnh khác nhau (độ rộng bit, phương pháp lượng tử hóa, loại tác vụ, loại mô hình).
Cung cấp hướng dẫn thực tế để triển khai dLLM hiệu quả
Chia sẻ nghiên cứu bằng cách công khai mã và thiết lập thử nghiệm
Limitations:
Các loại dLLM và kỹ thuật lượng tử hóa được đề cập trong nghiên cứu này có thể bị hạn chế.
ĐáNh giá hiệu suất trong môi trường triển khai thiết bị biên thực tế có thể còn thiếu sót.
Thiếu các giải pháp tối ưu hóa cho nhiều nền tảng phần cứng khác nhau
👍