Cet article aborde une question fondamentale concernant le phénomène de mémorisation des données d'entraînement dans les modèles linguistiques à grande échelle (MLH) : comment caractériser la difficulté de mémorisation des données d'entraînement ? Grâce à des expériences utilisant la famille de modèles ouverts OLMo, nous proposons la loi d'entropie-mémorisation, qui suggère une corrélation linéaire entre l'entropie des données et les scores de mémorisation. De plus, grâce à une étude de cas sur la mémorisation de chaînes de caractères hautement aléatoires (du charabia), nous observons que ces chaînes, malgré leur caractère aléatoire apparent, présentent une entropie empirique étonnamment faible par rapport au vaste corpus d'entraînement. En adoptant la même stratégie que celle utilisée pour découvrir la loi d'entropie-mémorisation, nous dérivons l'inférence d'ensemble de données (DI), une approche simple mais efficace pour distinguer les données d'entraînement des données de test.