Este artículo aborda los riesgos de privacidad y equidad de la memorización en modelos de lenguaje a gran escala (LLMs). A diferencia de estudios previos que han mostrado una correlación entre la memorización y la frecuencia de tokens y patrones de repetición, este estudio descubre un patrón de respuesta único en el que el aumento de la frecuencia tiene un efecto mínimo (p. ej., 0.09) en muestras memorizadas pero un efecto significativo (p. ej., 0.25) en muestras no memorizadas. Utilizando el análisis contrafactual, que cuantifica la fuerza de las perturbaciones cambiando los prefijos de muestra y las posiciones de tokens, demostramos que la redundancia se correlaciona con los patrones de memorización. Nuestros resultados muestran que aproximadamente el 79% de las muestras memorizadas tienen baja redundancia, y estas muestras de baja redundancia son dos veces más vulnerables que las muestras de alta redundancia. Las perturbaciones disminuyen las muestras memorizadas en 0.6, mientras que las muestras no memorizadas disminuyen solo en 0.01, lo que indica que el contenido más redundante es más memorable pero también más vulnerable. Esto sugiere que utilizar un enfoque basado en la redundancia en el preprocesamiento de datos puede mitigar los riesgos de privacidad y garantizar la equidad.