Data Curation Through the Lens of Spectral Dynamics: Static Limits, Dynamic Acceleration, and Practical Oracles
Created by
Haebom
Category
Empty
저자
Yizhou Zhang, Lun Du
개요
대규모 신경망 모델 훈련에 사용되는 데이터 기반 전략(데이터 정리, 합성 데이터 생성, 모델 간 증류, RLHF, 난이도 기반 샘플링 등)의 효과를 분석한다. 특히, 자체 생성 합성 데이터의 효과 미미함을 지적하고, 데이터 정리를 재가중 샘플링 분포로 형식화하여 데이터 유도 연산자의 고유 구조에 미치는 영향을 매핑한다. 정적 데이터 정리의 한계와 시간 종속적 데이터 정리의 잠재적 이점을 제시한다.
시사점, 한계점
•
시사점:
◦
정적 데이터 정리는 모델 성능 향상에 제한적이며, 점근적 신경망 스케일링을 변경할 수 없다.
◦
시간 종속적 데이터 정리는 학습 속도를 향상시킬 수 있는 잠재력이 있다.
•
한계점:
◦
실용적인 시스템은 시간 종속적 데이터 정리의 이상적인 동작을 근사적으로만 구현할 수 있다.
◦
자체 생성 합성 데이터의 효과가 미미하다는 점을 강조하지만, 그 이유에 대한 구체적인 분석은 제시되지 않을 수 있다.