Scaling Laws of Synthetic Data for Language Models
Created by
Haebom
Category
Empty
저자
Zeyu Qin, Qingxiu Dong, Xingxing Zhang, Li Dong, Xiaolong Huang, Ziyi Yang, Mahmoud Khademi, Dongdong Zhang, Hany Hassan Awadalla, Yi R. Fung, Weizhu Chen, Minhao Cheng, Furu Wei
개요
본 논문은 대규모 언어 모델(LLM)의 학습에 사용되는 웹 데이터의 고갈 문제를 해결하기 위해, 합성 데이터를 이용한 확장 가능한 프레임워크 SynthLLM을 제시합니다. SynthLLM은 그래프 알고리즘을 사용하여 기존의 학습 데이터에서 고차원 개념을 추출하고 재결합하여 다양하고 고품질의 합성 데이터셋을 생성합니다. 실험 결과, SynthLLM은 다양한 모델 크기에 걸쳐 수정된 확장 법칙을 충실히 따르는 합성 데이터를 생성하며, 성능 향상은 약 300B 토큰 부근에서 정체되고, 더 큰 모델은 더 적은 토큰으로 최적 성능에 도달함을 보였습니다 (예: 8B 모델은 1T 토큰에서 최고 성능, 3B 모델은 4T 토큰에서 최고 성능). 기존의 합성 데이터 생성 및 증강 방법과 비교하여 SynthLLM이 우수한 성능과 확장성을 달성함을 보여줍니다. 따라서 본 연구는 유기적 사전 학습 코퍼스에 대한 확장 가능하고 신뢰할 수 있는 대안으로 합성 데이터의 가능성을 강조합니다.
시사점, 한계점
•
시사점:
◦
합성 데이터를 활용한 LLM 학습의 효율성 및 확장성을 입증.
◦
SynthLLM이 기존 방법보다 우수한 성능과 확장성을 제공함을 보임.
◦
LLM 성능 향상을 위한 새로운 방향 제시 (합성 데이터 활용).
◦
모델 크기와 최적 토큰 수 간의 관계 규명.
•
한계점:
◦
SynthLLM의 성능은 특정 유형의 데이터셋에 국한될 수 있음.
◦
합성 데이터의 품질 평가 기준 및 방법에 대한 추가 연구 필요.
◦
현재 실험 결과가 특정 규모의 모델과 토큰 수에 국한되어, 다른 규모의 모델에 대한 일반화 가능성에 대한 추가 연구 필요.