본 논문은 인터넷 콘텐츠 생성에 점점 더 많이 기여하고 있는 대규모 언어 모델(LLM)의 반복적 미세 조정으로 인한 분포 이동 현상을 연구합니다. 기존 연구에서 반복적 미세 조정이 모델의 품질 저하로 이어질 수 있음을 보여준 바 있는데, 이 연구는 인간 데이터의 특성이 이러한 분포 이동 역학에 미치는 영향을 조사합니다. Twitter와 Reddit 데이터셋을 비교 분석하여 분포 이동 역학이 데이터셋에 따라 크게 다름을 확인하고, 데이터 품질이 이동 속도에 영향을 미치는지 여부를 Twitter와 Reddit 데이터셋에서 각각 검증합니다. Reddit 데이터셋을 중심으로 데이터셋 특성에 대한 포괄적인 평가를 수행하여 어휘 다양성과 의미 다양성이 분포 이동에 미치는 영향을 분석하고, 정치적 편향의 진화 과정을 연구하여 인간 데이터의 정치적 성향에 따라 편향 감소, 증폭 또는 역전이 발생할 수 있음을 밝힙니다. 결론적으로, 이 연구는 반복적 미세 조정의 결과가 인간 데이터의 특성에 크게 의존하며, 인터넷의 서로 다른 영역(예: GitHub, Reddit)이 그 특성에 따라 다른 유형의 분포 이동을 겪을 수 있음을 시사합니다.