Este artículo estudia el fenómeno del colapso del modelo que ocurre durante el entrenamiento iterativo de un modelo de lenguaje a gran escala (LLM) utilizando datos sintéticos generados por el LLM. Específicamente, analizamos empíricamente el impacto de las características de los datos humanos en este cambio distributivo. Utilizando varios conjuntos de datos humanos, realizamos un entrenamiento iterativo y, mediante la manipulación de las características del conjunto de datos y el análisis de regresión, identificamos las características de los datos que predicen la magnitud del cambio distributivo. Encontramos que la diversidad léxica amplifica el cambio distributivo, mientras que la diversidad semántica y la calidad de los datos lo mitigan. Además, demostramos que estos efectos son modulares, lo que significa que los datos recopilados de un dominio específico de Internet tienen poca influencia en la creación de contenido en otros dominios. Finalmente, los experimentos sobre sesgo político demuestran que las características de los datos humanos influyen en si los sesgos iniciales se amplifican o se reducen. Finalmente, presentamos una perspectiva novedosa sobre cómo diferentes partes de Internet pueden experimentar diferentes tipos de cambio distributivo.