Training Dynamics Underlying Language Model Scaling Laws: Loss Deceleration and Zero-Sum Learning
Created by
Haebom
저자
Andrei Mircea, Supriyo Chakraborty, Nima Chitsazan, Milind Naphade, Sambit Sahu, Irina Rish, Ekaterina Lobacheva
개요
본 논문은 언어 모델의 확장성이 훈련 역학에 미치는 영향, 특히 손실 감소에 대한 이해를 목표로 한다. 연구 결과, 언어 모델은 훈련 초기에 손실 감소 속도가 급격히 둔화되는 손실 감속 현상을 보이는데, 이는 로그-로그 공간에서 손실 곡선의 구간별 선형 거동으로 나타난다. 모델 확장은 (1) 감속이 발생하는 손실 값을 감소시키고, (2) 감속 후 로그-로그 손실 개선 속도를 향상시킴으로써 이러한 전이를 완화한다. 논문에서는 손실 감속을 '제로섬 학습(ZSL)'이라는 퇴화된 훈련 역학의 한 유형으로 설명한다. ZSL에서 각 예제의 기울기는 체계적으로 상반되어 각 예제의 손실 변화에 파괴적인 간섭을 일으킨다. 결과적으로, 한 예제 집합에 대한 손실 개선은 다른 집합에 대한 손실을 저하시켜 전반적인 진행 상황을 병목 현상으로 만든다. 손실 감속과 ZSL은 언어 모델 확장 법칙의 훈련 역학에 대한 새로운 통찰력을 제공하며, 규모에 관계없이 언어 모델을 개선하기 위해 직접적으로 목표가 될 수 있다. 코드와 결과물은 https://github.com/mirandrom/zsl 에서 확인 가능하다.