본 논문은 합성 데이터를 사용한 언어 모델 학습에서 발생하는 모델 붕괴 현상(model collapse)에 대해 연구합니다. 합성 데이터 비율이 높아질수록 모델 성능이 저하되는 음의 상관관계를 실험적으로 확인하고, 이는 합성 데이터의 분포 이동(distributional shift)과 n-gram 특징의 과집중(over-concentration) 때문임을 분석합니다. 이를 해결하기 위해, 기존 인간이 생성한 데이터에 토큰 편집(token editing)을 적용하여 반합성 데이터(semi-synthetic data)를 생성하는 방법을 제안하고, 이론적으로 모델 붕괴를 방지할 수 있음을 증명합니다. 실험을 통해 초기 학습, 지속적 학습, 지도 학습 미세 조정 등 다양한 설정에서 토큰 편집이 모델 성능을 향상시키는 것을 검증합니다.
시사점, 한계점
•
시사점:
◦
합성 데이터를 사용한 언어 모델 학습 시 모델 붕괴 현상의 원인과 해결 방안을 제시.
◦
토큰 편집을 통한 반합성 데이터 생성 방법이 모델 성능 향상에 효과적임을 실험적으로 입증.
◦
향후 GPT 계열 모델의 학습 방향에 대한 시사점 제시 (합성 데이터와 인간 생성 데이터의 혼합 사용).