본 논문은 자원 제약 환경에서의 대규모 언어 모델(LLM) 배포를 제한하는 높은 계산 및 메모리 요구량 문제를 해결하기 위해, 제로샷 형태 보존 압축 알고리즘을 위한 통합 프레임워크인 NoWag(Normalized Weight and Activation Guided Compression)을 제안합니다. NoWag는 벡터 양자화(NoWag-VQ)와 비구조적/반구조적 가지치기(NoWag-P)라는 두 가지 형태 보존 압축 방식을 사용하여 Llama-2 7B/13B/70B 및 Llama-3 8B/70B 모델을 압축합니다. 실험 결과, NoWag-VQ는 최첨단 제로샷 벡터 양자화 방법을 상당히 능가하고, NoWag-P는 최첨단 방법들과 경쟁력 있는 성능을 보임을 보여줍니다. 이는 서로 다른 압축 패러다임 간의 공통점을 시사하며, 향후 연구에 대한 영감을 제공합니다. 소스 코드는 깃허브에 공개되어 있습니다.