Para abordar los desafíos de implementar modelos de lenguaje a gran escala (LLM) en entornos con recursos limitados, este artículo propone NoWag (Normalized Weight and Activation Guided Compression), un marco unificado para algoritmos de compresión con preservación de forma de disparo cero. NoWag comprime los modelos Llama-2 7B/13B/70B y Llama-3 8B/70B mediante dos métodos de compresión con preservación de forma: cuantificación vectorial (NoWag-VQ) y poda no estructurada/semiestructurada (NoWag-P). Los resultados experimentales muestran que NoWag-VQ supera significativamente a los métodos de cuantificación vectorial de disparo cero más avanzados, y NoWag-P los supera. Estos resultados sugieren puntos en común entre ambos paradigmas de compresión para futuras investigaciones. El código fuente está disponible en GitHub.