Este artículo propone la Optimización de Preferencias de Parafraseo (ParaPO), un método post-entrenamiento, para resolver el problema de los modelos de lenguaje (LM) que repiten el contenido de los datos pre-entrenamiento tal cual. ParaPO entrena a los LM para parafrasear el contenido memorizado en lugar de mostrarlo tal cual. También proponemos una variante de ParaPO que utiliza indicaciones del sistema para permitir el uso adecuado de citas célebres. Los resultados experimentales en los modelos Llama3.1-8B y Tulu3-8B muestran que ParaPO es más efectivo que los métodos convencionales de desaprendizaje para reducir la repetición de contenido memorizado, manteniendo al mismo tiempo la usabilidad del modelo. En particular, ParaPO, utilizando indicaciones del sistema, demuestra su eficacia para reducir la repetición no deseada de contenido, manteniendo al mismo tiempo la capacidad de recordar citas célebres.