Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Recursive Training Loops in LLMs: How training data properties modulate distribution shift in generated data?

Created by
  • Haebom

저자

Grgur Kova\v{c}, Jeremy Perez, Remy Portelas, Peter Ford Dominey, Pierre-Yves Oudeyer

개요

본 논문은 인터넷 콘텐츠 생성에 점점 더 많이 기여하는 대규모 언어 모델(LLM)의 반복적 미세 조정이 데이터 분포 이동(distribution shift)을 야기하여 모델의 성능 저하를 초래할 수 있다는 점에 주목합니다. 특히, 이전 연구에서 제기된 데이터 분포 이동 현상이 인간 데이터의 특성에 따라 크게 달라질 수 있다는 점을 확인하기 위해, Twitter와 Reddit 데이터셋을 비교 분석합니다. 다양한 데이터 특성(어휘 다양성, 의미 다양성, 정치적 편향 등)이 데이터 분포 이동의 속도와 유형에 미치는 영향을 분석하여, 어휘 다양성이 높고 의미 다양성이 낮은 텍스트가 생성 텍스트의 질 저하를 심화시킬 수 있다는 점과 인간 데이터의 정치적 성향에 따라 편향 감소, 증폭 또는 역전 등 다양한 유형의 변화가 발생할 수 있다는 점을 밝힙니다. 결론적으로, 반복적 미세 조정의 결과는 학습에 사용되는 인간 데이터의 특성에 크게 의존하며, 인터넷의 서로 다른 영역(예: GitHub, Reddit)에서 데이터 특성에 따라 서로 다른 유형의 변화가 나타날 수 있음을 시사합니다.

시사점, 한계점

시사점:
LLM의 반복적 미세 조정 과정에서 발생하는 데이터 분포 이동 현상은 인간 데이터의 특성에 크게 의존합니다.
어휘 다양성과 의미 다양성은 데이터 분포 이동에 상반된 영향을 미칩니다. 높은 어휘 다양성은 질 저하를 심화시킬 수 있습니다.
인간 데이터의 정치적 성향은 모델의 정치적 편향 변화 방향(감소, 증폭, 역전)을 결정합니다.
인터넷의 각기 다른 플랫폼은 고유한 데이터 특성에 따라 다른 유형의 데이터 분포 이동을 경험할 수 있습니다.
한계점:
분석에 사용된 데이터셋의 종류와 수가 제한적일 수 있습니다. 더 다양한 데이터셋을 이용한 추가 연구가 필요합니다.
데이터 특성과 데이터 분포 이동 간의 인과 관계를 명확히 규명하기 위해서는 더 심층적인 분석이 필요합니다.
본 연구는 주로 텍스트 데이터에 초점을 맞추고 있으므로, 이미지나 비디오와 같은 다른 유형의 데이터에 대한 연구가 필요합니다.
👍