Este artículo aborda una pregunta fundamental sobre el fenómeno de la memorización de datos de entrenamiento en modelos lingüísticos a gran escala (LLM): ¿cómo podemos caracterizar la dificultad de memorizar datos de entrenamiento? Mediante experimentos con la familia OLMo de modelos abiertos, proponemos la ley de entropía-memorización, que sugiere que la entropía de los datos está linealmente correlacionada con las puntuaciones de memorización. Además, mediante un estudio de caso de memorización de cadenas altamente aleatorias (gibberish), observamos que estas cadenas, a pesar de su aparente aleatoriedad, presentan una entropía empírica inesperadamente baja en comparación con el extenso corpus de entrenamiento. Adoptando la misma estrategia empleada para descubrir la ley de entropía-memorización, derivamos la Inferencia de Conjuntos de Datos (ID), un enfoque simple pero eficaz para distinguir entre datos de entrenamiento y de prueba.