Sub-Scaling Laws: On the Role of Data Density and Training Strategies in LLMs
Created by
Haebom
저자
Zhengyu Chen, Siqi Wang, Teng Xiao, Yudong Wang, Shiqi Chen, Xunliang Cai, Junxian He, Jingang Wang
개요
본 논문은 기존의 자연어 처리 스케일링 법칙(모델 크기와 훈련 데이터 증가에 따른 성능 향상)의 한계를 다룹니다. 대규모 언어 모델에서 성능 향상이 감소하는 현상인 서브스케일링(sub-scaling)에 주목하여, 데이터 품질과 훈련 전략이 모델 성능에 미치는 영향을 400개 이상의 모델을 통해 실증적으로 분석합니다. 그 결과, 높은 데이터 밀도(redundant information)와 비효율적인 자원 할당이 서브스케일링의 주요 원인임을 밝히고, 데이터 품질과 다양성을 강조하는 새로운 서브스케일링 법칙을 제안합니다.
시사점, 한계점
•
시사점:
◦
데이터 품질과 다양성이 대규모 언어 모델의 성능 향상에 중요한 역할을 한다는 것을 실증적으로 보여줍니다.
◦
높은 데이터 밀도는 성능 향상에 대한 감소 수익을 야기할 수 있음을 제시합니다.
◦
효율적인 자원 할당이 지속적인 성능 향상에 필수적임을 강조합니다.
◦
기존 스케일링 법칙의 한계를 극복하는 새로운 서브스케일링 법칙을 제안합니다.
•
한계점:
◦
본 연구에서 사용된 400개 이상의 모델의 구체적인 종류와 사양에 대한 정보가 부족합니다.