Data Value in the Age of Scaling: Understanding LLM Scaling Dynamics Under Real-Synthetic Data Mixtures
Created by
Haebom
Category
Empty
저자
Haohui Wang, Jingyuan Qi, Jianpeng Chen, Jun Wu, Lifu Huang, Lecheng Zheng, Kevin Choi, Balaji Veeramani, Edward Bowen, Alison Hu, Tyler Cody, Dawei Zhou
개요
대규모 언어 모델(LLM)의 발전은 실제 데이터와 합성 데이터를 혼합한 데이터 세트에 대한 의존도 증가에 기인한다. 합성 데이터는 확장성과 비용 효율성을 제공하지만, top-p sampling, temperature scaling, 유한 샘플링과 같은 데이터 생성 메커니즘으로 인한 절단 효과로 인해 롱테일 지식을 과소 대표하는 등 체계적인 분포 불일치를 종종 유발한다. 본 논문에서는 혼합된 실제-합성 데이터 세트의 유용성을 특성화하고 평가하는 데 근본적인 어려움을 제기한다. 본 논문은 학습 헤드 및 테일 지식에 걸쳐 모델 동작의 전환을 반영하는 두 개의 브레이크포인트로 특징지어지는 3단계 스케일링 동작을 식별한다. 또한, 실제 및 합성 혼합에 맞게 설계된 LLM 일반화 경계를 도출하여 일반화 성능을 제어하는 몇 가지 주요 요인을 밝힌다. 이러한 이론적 발견을 바탕으로 대규모 데이터 세트로 확장되는 효과적이면서 효율적인 데이터 평가 방법을 제안한다. 이미지 분류, 감성 분류, 지시 따르기 및 복잡한 추론을 포함한 4가지 작업에 대한 포괄적인 실험을 통해 제안된 방법이 훨씬 낮은 계산 비용으로 데이터 평가에서 최첨단 기준선을 능가함을 보여준다.
시사점, 한계점
•
시사점:
◦
LLM 학습에 사용되는 혼합된 실제-합성 데이터 세트의 일반화 성능을 이해하기 위한 이론적 프레임워크 제공.
◦
데이터 세트의 가치를 효율적으로 평가하는 방법을 제안하여 데이터 활용 효율성을 높임.
◦
다양한 작업에 대한 실험을 통해 제안 방법의 효과를 입증.
•
한계점:
◦
제안된 방법의 효과가 특정 작업 및 데이터 유형에 국한될 수 있음.
◦
이론적 분석의 가정 및 제한 사항에 대한 추가적인 연구 필요.
◦
실제 데이터와 합성 데이터의 혼합 비율, 데이터 생성 방식 등 다양한 요인이 성능에 미치는 영향에 대한 추가적인 연구 필요.