본 논문은 자원 제약 환경에서의 대규모 언어 모델(LLM) 배포의 어려움을 해결하기 위해, 제로샷 형태 보존 압축 알고리즘을 위한 통합 프레임워크인 NoWag(Normalized Weight and Activation Guided Compression)를 제안합니다. NoWag는 벡터 양자화(NoWag-VQ)와 비구조적/반구조적 가지치기(NoWag-P)라는 두 가지 형태의 형태 보존 압축을 사용하여 Llama-2 7B/13B/70B 및 Llama-3 8B/70B 모델을 압축합니다. 실험 결과, NoWag-VQ는 최첨단 제로샷 벡터 양자화 방법을 상당히 능가하고, NoWag-P는 최첨단 방법들과 경쟁력 있는 성능을 보여줍니다. 이러한 결과는 향후 연구를 위한 두 가지 압축 패러다임 간의 공통점을 시사합니다. 소스 코드는 Github에서 공개됩니다.