En este artículo, proponemos una novedosa penalización, la penalización LZ, diseñada para reducir las repeticiones degeneradas en modelos de lenguaje autorregresivos. Basándonos en la longitud del código del algoritmo de compresión LZ77, esta penalización puede interpretarse como un muestreo de la distribución residual tras eliminar información con una alta tasa de compresión desde la perspectiva de la dualidad predicción-compresión. Los resultados experimentales muestran que la penalización LZ previene las repeticiones degeneradas sin degradar el rendimiento, incluso al utilizar decodificación voraz (temperatura 0) en un modelo de inferencia de código abierto de vanguardia. En contraste, las penalizaciones de frecuencia y repetición existentes muestran una tasa de repetición degenerada de hasta el 4%.