Overtrained Language Models Are Harder to Fine-Tune
Created by
Haebom
Category
Empty
저자
Jacob Mitchell Springer, Sachin Goyal, Kaiyue Wen, Tanishq Kumar, Xiang Yue, Sadhika Malladi, Graham Neubig, Aditi Raghunathan
개요
본 논문은 대규모 언어 모델(LLM)의 사전 학습 토큰 수 증가가 항상 성능 향상으로 이어지는 것이 아님을 보여줍니다. 오히려 과도한 사전 학습은 미세 조정을 어렵게 만들어 최종 성능 저하를 야기하는 "재앙적 과적합(catastrophic overtraining)" 현상을 초래할 수 있다는 점을 제시합니다. 예를 들어, 3조 토큰으로 사전 학습된 OLMo-1B 모델은 2.3조 토큰으로 사전 학습된 모델보다 여러 LLM 벤치마크에서 2% 이상 성능이 저하되었습니다. 통제된 실험과 이론적 분석을 통해 이러한 현상이 사전 학습된 매개변수의 광범위한 민감도 증가로 인해 발생함을 밝힙니다. 따라서 모델의 downstream 적응성을 고려한 사전 학습 설계의 재평가가 필요함을 주장합니다.