Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Bài báo này đề xuất MQuant, một khuôn khổ lượng tử hóa sau đào tạo (PTQ) cho việc suy luận hiệu quả các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Để giải quyết những thách thức trong việc triển khai và ứng dụng thực tế do kích thước tham số lớn và nhu cầu tính toán cao của MLLM, MQuant giới thiệu lượng tử hóa tĩnh theo phương thức (MSQ), chuyển mạch linh hoạt bất biến theo sự chú ý (AIFS) và triệt tiêu tỷ lệ quay (RMS) để đạt được hiệu suất vượt trội so với các đường cơ sở PTQ hiện có. MSQ gán các tỷ lệ tĩnh riêng biệt cho các mã thông báo trực quan và văn bản. AIFS loại bỏ các phép tính tỷ lệ trên mỗi mã thông báo tốn kém về mặt tính toán trong khi vẫn duy trì sự chú ý thông thường bằng cách sắp xếp lại thứ tự mã thông báo. RMS giảm thiểu các giá trị ngoại lệ về trọng số do phép quay Hadamard trực tuyến gây ra. Chúng tôi chứng minh rằng MQuant giảm độ trễ suy luận tới 30% trên năm MLLM hàng đầu, bao gồm Qwen-VL, MiniCPM-V và CogVLM2, đồng thời duy trì độ chính xác dấu phẩy động gần như tương đương (giảm <1%) theo W4A8. Mã nguồn có sẵn trên GitHub.
Takeaways, Limitations
•
Takeaways:
◦
Một khuôn khổ PTQ mới, MQuant, được trình bày để suy luận MLLM hiệu quả.
◦
Xử lý độ trễ suy luận cao của PTQ hiện có (__T74070_____), sự không khớp phân phối giữa mã thông báo trực quan và văn bản và các vấn đề ngoại lệ do biến đổi Hadamard.
◦
ĐạT được độ chính xác gần như dấu chấm động và giảm độ trễ suy luận (lên đến 30%) trên nhiều MLLM khác nhau.
◦
Tăng cường tính thực tiễn của suy luận MLLM trong môi trường hạn chế tài nguyên
◦
ĐảM bảo khả năng tái tạo và mở rộng nghiên cứu thông qua việc công bố mã nguồn
•
Limitations:
◦
Hiệu quả của phương pháp đề xuất có thể bị giới hạn ở một MLLM và cài đặt lượng tử hóa cụ thể (W4A8). Cần nghiên cứu thêm để xác định hiệu suất tổng quát hóa cho các MLLM và cài đặt lượng tử hóa khác.
◦
Các loại MLLM hiện được hỗ trợ còn hạn chế và cần phải xác minh khả năng áp dụng cho nhiều mô hình hơn.
◦
Phương pháp này chuyên dùng cho MLLM dựa trên phép biến đổi Hadamard, do đó có thể khó áp dụng cho MLLM có kiến trúc khác.