Để Giải quyết những thách thức khi triển khai các mô hình ngôn ngữ quy mô lớn (LLM) trong môi trường hạn chế về tài nguyên, bài báo này đề xuất NoWag (Nén theo Trọng số và Kích hoạt Chuẩn hóa), một khuôn khổ thống nhất cho các thuật toán nén giữ nguyên hình dạng zero-shot. NoWag nén các mô hình Llama-2 7B/13B/70B và Llama-3 8B/70B bằng hai hình thức nén giữ nguyên hình dạng: lượng tử hóa vector (NoWag-VQ) và cắt tỉa phi cấu trúc/bán cấu trúc (NoWag-P). Kết quả thực nghiệm cho thấy NoWag-VQ vượt trội đáng kể so với các phương pháp lượng tử hóa vector zero-shot hiện đại, và NoWag-P có khả năng cạnh tranh với chúng. Những kết quả này gợi ý những điểm chung giữa hai mô hình nén này cho các nghiên cứu trong tương lai. Mã nguồn có sẵn trên GitHub.