Pour relever les défis du déploiement de modèles de langage à grande échelle (LLM) dans des environnements aux ressources limitées, cet article propose NoWag (Normalized Weight and Activation Guided Compression), un algorithme de compression unifié et ponctuel préservant la forme. NoWag compresse les modèles Llama-2 (7B, 13B, 70B) et Llama-3 (8B, 70B) à l'aide de deux techniques de préservation de forme : la quantification vectorielle (NoWag-VQ) et l'élagage non structuré/semi-structuré (NoWag-P). Les résultats expérimentaux démontrent que NoWag-VQ surpasse significativement les méthodes de quantification vectorielle ponctuelles de pointe, et que NoWag-P est compétitif par rapport aux principales techniques d'élagage. Cela met en évidence les points communs entre les deux paradigmes de compression et suggère des pistes de recherche prometteuses. Le code source est disponible sur GitHub.