Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Recursive Training Loops in LLMs: How training data properties modulate distribution shift in generated data?

Created by
  • Haebom

저자

Grgur Kova\v{c}, Jeremy Perez, Remy Portelas, Peter Ford Dominey, Pierre-Yves Oudeyer

개요

본 논문은 대규모 언어 모델(LLM)이 생성한 합성 데이터로 LLM을 반복적으로 학습시키는 과정에서 발생하는 분포 이동(model collapse) 현상에 대해 연구합니다. 특히, 인간 데이터의 특성이 이러한 분포 이동에 미치는 영향을 실증적으로 분석합니다. 다양한 인간 데이터셋을 사용하여 반복 학습을 진행하고, 데이터셋 특성 조작과 회귀 분석을 통해 분포 이동의 크기를 예측하는 데이터 특성들을 밝힙니다. 결과적으로 어휘 다양성은 분포 이동을 증폭시키고, 의미 다양성과 데이터 품질은 분포 이동을 완화시킨다는 것을 발견했습니다. 또한, 이러한 영향은 모듈화되어 있어 특정 인터넷 도메인에서 수집된 데이터는 다른 도메인의 콘텐츠 생성에는 거의 영향을 미치지 않는다는 것을 밝혔습니다. 마지막으로, 정치적 편향에 대한 실험을 통해 인간 데이터 특성이 초기 편향을 증폭시키거나 감소시키는지에 영향을 미친다는 것을 보여줍니다. 결론적으로, 인터넷의 서로 다른 부분이 서로 다른 유형의 분포 이동을 겪을 수 있다는 새로운 관점을 제시합니다.

시사점, 한계점

시사점:
LLM의 반복 학습 과정에서 발생하는 분포 이동의 크기를 예측하는 데이터 특성(어휘 다양성, 의미 다양성, 데이터 품질)을 규명함.
인터넷 데이터의 도메인 특성이 LLM의 콘텐츠 생성에 미치는 영향의 모듈성을 제시함.
인간 데이터의 특성이 LLM의 정치적 편향에 미치는 영향을 분석함.
인터넷의 다양한 영역에서 발생하는 분포 이동의 다양성을 보여줌.
한계점:
분석에 사용된 데이터셋과 특성의 종류 및 범위에 대한 제한.
분포 이동의 정량적 측정 및 예측 모델의 일반화 가능성에 대한 추가 연구 필요.
다양한 LLM 아키텍처 및 학습 방법론에 대한 일반화 가능성 검증 필요.
특정 도메인의 영향이 다른 도메인에 미치지 않는다는 모듈성의 범위와 한계에 대한 추가 연구 필요.
👍