Pour relever les défis du déploiement de modèles de langage à grande échelle (LLM) dans des environnements aux ressources limitées, cet article propose NoWag (Normalized Weight and Activation Guided Compression), un cadre unifié pour les algorithmes de compression zéro-shot préservant la forme. NoWag compresse les modèles Llama-2 7B/13B/70B et Llama-3 8B/70B en utilisant deux formes de compression préservant la forme : la quantification vectorielle (NoWag-VQ) et l'élagage non structuré/semi-structuré (NoWag-P). Les résultats expérimentaux montrent que NoWag-VQ surpasse significativement les méthodes de quantification vectorielle zéro-shot de pointe, et que NoWag-P est compétitif avec elles. Ces résultats suggèrent des points communs entre les deux paradigmes de compression pour les recherches futures. Le code source est disponible sur GitHub.