Để Giải quyết vấn đề các mô hình ngôn ngữ quy mô lớn (LLM) bị suy giảm hiệu suất nghiêm trọng trong quá trình lượng tử hóa bit cực thấp (<2 bit), bài báo này đề xuất PTQ1.61, một phương pháp lượng tử hóa sau huấn luyện bit cực thấp (PTQ) mới cho phép lượng tử hóa trọng số 1,61 bit. Trong khi các phương pháp hiện có sử dụng nhiều hơn 1 bit bổ sung cho mỗi trọng số, PTQ1.61 giới thiệu một mặt nạ có cấu trúc một chiều dựa trên các kích hoạt đầu vào chỉ sử dụng một bit bổ sung không đáng kể 0,0002 bit, phân bổ 4 bit cho các kênh trọng số quan trọng và thực hiện nhị phân hóa trên các kênh không quan trọng thông qua khuôn khổ tối ưu hóa hệ số tỷ lệ theo khối. Hơn nữa, chúng tôi trình bày một mô hình tiền xử lý lượng tử hóa mới giúp giảm bớt những khó khăn của PTQ kênh bit cực thấp cụ thể bằng cách biến đổi phân phối trọng số của một mô hình được huấn luyện trước khi lượng tử hóa. Kết quả thực nghiệm chứng minh rằng PTQ1.61 đạt được hiệu suất tiên tiến trong quá trình lượng tử hóa bit cực thấp.