Para abordar los desafíos de implementar modelos de lenguaje a gran escala (LLM) en entornos con recursos limitados, este artículo propone NoWag (Normalized Weight and Activation Guided Compression), un algoritmo de compresión unificado de un solo uso con preservación de forma. NoWag comprime los modelos Llama-2 (7B, 13B, 70B) y Llama-3 (8B, 70B) mediante dos técnicas de preservación de forma: cuantificación vectorial (NoWag-VQ) y poda no estructurada/semiestructurada (NoWag-P). Los resultados experimentales demuestran que NoWag-VQ supera significativamente a los métodos de cuantificación vectorial de un solo uso más avanzados, y que NoWag-P compite con las técnicas de poda líderes. Esto destaca los puntos en común entre ambos paradigmas de compresión y sugiere prometedoras líneas de investigación para el futuro. El código fuente está disponible en GitHub.