본 논문은 대규모 언어 모델(LLM)이 생성한 합성 데이터로 LLM을 반복적으로 학습시키는 과정에서 발생하는 분포 이동(model collapse) 현상에 대해 연구합니다. 특히, 인간 데이터의 특성이 이러한 분포 이동에 미치는 영향을 실증적으로 분석합니다. 다양한 인간 데이터셋을 사용하여 반복 학습을 진행하고, 데이터셋 특성 조작과 회귀 분석을 통해 분포 이동의 크기를 예측하는 데이터 특성들을 밝힙니다. 결과적으로 어휘 다양성은 분포 이동을 증폭시키고, 의미 다양성과 데이터 품질은 분포 이동을 완화시킨다는 것을 발견했습니다. 또한, 이러한 영향은 모듈화되어 있어 특정 인터넷 도메인에서 수집된 데이터는 다른 도메인의 콘텐츠 생성에는 거의 영향을 미치지 않는다는 것을 밝혔습니다. 마지막으로, 정치적 편향에 대한 실험을 통해 인간 데이터 특성이 초기 편향을 증폭시키거나 감소시키는지에 영향을 미친다는 것을 보여줍니다. 결론적으로, 인터넷의 서로 다른 부분이 서로 다른 유형의 분포 이동을 겪을 수 있다는 새로운 관점을 제시합니다.