Để Giải quyết những thách thức khi triển khai các mô hình ngôn ngữ quy mô lớn (LLM) trong môi trường hạn chế về tài nguyên, bài báo này đề xuất NoWag (Nén theo Trọng số và Kích hoạt Chuẩn hóa), một khuôn khổ thuật toán nén thống nhất, bảo toàn hình dạng một lần. NoWag nén các mô hình Llama-2 (7B, 13B, 70B) và Llama-3 (8B, 70B) bằng hai kỹ thuật bảo toàn hình dạng: lượng tử hóa vectơ (NoWag-VQ) và cắt tỉa phi cấu trúc/bán cấu trúc (NoWag-P). Kết quả thực nghiệm chứng minh rằng NoWag-VQ vượt trội đáng kể so với các phương pháp lượng tử hóa vectơ một lần hiện đại, và NoWag-P có khả năng cạnh tranh với các kỹ thuật cắt tỉa hàng đầu. Điều này làm nổi bật những điểm chung giữa hai mô hình nén và gợi ý những hướng nghiên cứu đầy hứa hẹn trong tương lai. Mã nguồn có sẵn trên GitHub.