Bài báo này trình bày nghiên cứu có hệ thống đầu tiên về lượng tử hóa bit thấp của các mô hình ngôn ngữ quy mô lớn (dLLM) dựa trên khuếch tán. Không giống như các mô hình ngôn ngữ quy mô lớn (LLM) tự hồi quy (AR), các mô hình dLLM sử dụng các chiến lược giải mã dựa trên sự chú ý đầy đủ và khử nhiễu. Tuy nhiên, kích thước tham số lớn và yêu cầu tài nguyên cao của chúng cản trở việc triển khai trên các thiết bị biên. Nghiên cứu này khám phá vấn đề ngoại lệ trong các giá trị kích hoạt trong các mô hình dLLM và, sử dụng các kỹ thuật PTQ tiên tiến, thực hiện đánh giá toàn diện trên nhiều khía cạnh, bao gồm độ rộng bit, phương pháp lượng tử hóa, loại tác vụ và loại mô hình. Thông qua đó, chúng tôi mong muốn cung cấp những hiểu biết thực tế về hành vi lượng tử hóa của các mô hình dLLM và đặt nền tảng cho việc triển khai dLLM hiệu quả.