Dans cet article, nous présentons une mesure quantitative de la qualité des données, et plus particulièrement de leur diversité, lors du pré-apprentissage des modèles linguistiques à grande échelle (LLM). Les études précédentes sur le pré-apprentissage des LLM se sont principalement concentrées sur l'expansion de la taille des modèles et des ensembles de données, mais l'importance de la qualité des données n'a pas été clairement définie. En réponse, nous proposons une mesure appelée « coefficient de diversité » pour mesurer la diversité des données en langage naturel et la diversité des ensembles de données de pré-apprentissage accessibles au public. Grâce à des expériences sur 44 modèles (au total) de tailles diverses (de 51 M à 7 B paramètres) utilisant GPT-2 et LLaMAv2, nous montrons que le coefficient de diversité proposé est corrélé aux performances d'évaluation du modèle en aval. En conclusion, le coefficient de diversité est un aspect important de la qualité des données et capture la relation causale entre la diversité des données et l'amélioration des performances du modèle.