Dans cet article, nous proposons la compression guidée par poids normalisé et activation (NoWag), un cadre unifié pour les algorithmes de compression zéro-shot préservant la forme. Cette approche répond aux exigences élevées en termes de calcul et de mémoire qui limitent le déploiement de modèles de langage à grande échelle (LLM) dans des environnements aux ressources limitées. NoWag compresse les modèles Llama-2 7B/13B/70B et Llama-3 8B/70B à l'aide de deux méthodes de compression préservant la forme : la quantification vectorielle (NoWag-VQ) et l'élagage non structuré/semi-structuré (NoWag-P). Les résultats expérimentaux montrent que NoWag-VQ surpasse significativement les méthodes de quantification vectorielle zéro-shot les plus récentes, et que NoWag-P est compétitif par rapport à ces méthodes. Cela suggère des points communs entre les différents paradigmes de compression et inspire de futures recherches. Le code source est disponible sur GitHub.