Cet article étudie le phénomène d'effondrement de modèle qui se produit lors de l'apprentissage itératif d'un modèle linguistique à grande échelle (MLL) à l'aide de données synthétiques générées par le LLM. Plus précisément, nous analysons empiriquement l'impact des caractéristiques des données humaines sur ce changement distributionnel. À l'aide de divers ensembles de données humaines, nous effectuons un apprentissage itératif et, par la manipulation des caractéristiques des ensembles de données et une analyse de régression, identifions les caractéristiques des données qui prédisent l'ampleur du changement distributionnel. Nous constatons que la diversité lexicale amplifie le changement distributionnel, tandis que la diversité sémantique et la qualité des données l'atténuent. De plus, nous démontrons que ces effets sont modulaires, ce qui signifie que les données collectées sur un domaine Internet spécifique ont peu d'influence sur la création de contenu dans d'autres domaines. Enfin, des expériences sur les biais politiques démontrent que les caractéristiques des données humaines influencent l'amplification ou la réduction des biais initiaux. En conclusion, nous proposons une nouvelle perspective sur la manière dont différentes parties d'Internet peuvent connaître différents types de changements distributionnels.