Overtrained Language Models Are Harder to Fine-Tune
Created by
Haebom
저자
Jacob Mitchell Springer, Sachin Goyal, Kaiyue Wen, Tanishq Kumar, Xiang Yue, Sadhika Malladi, Graham Neubig, Aditi Raghunathan
개요
본 논문은 대규모 언어 모델(LLM)의 사전 학습에 대한 기존의 가정, 즉 더 많은 토큰으로 사전 학습할수록 성능이 향상된다는 가정에 대해 도전장을 던집니다. 연구진은 과도한 사전 학습이 모델의 파인튜닝을 어렵게 만들어 최종 성능을 저하시키는 "파국적 과적합(catastrophic overtraining)" 현상을 발견했습니다. 3조 토큰으로 사전 학습된 OLMo-1B 모델이 2.3조 토큰으로 사전 학습된 모델보다 여러 LLM 벤치마크에서 2% 이상 성능이 저하된다는 사례를 제시하며, 이 현상이 사전 학습된 파라미터의 민감도 증가로 인해 발생한다는 것을 통제된 실험과 이론적 분석을 통해 보여줍니다. 따라서 모델의 하류 적응성을 고려한 사전 학습 설계의 재평가가 필요함을 시사합니다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델의 사전 학습 데이터 크기가 무조건 성능 향상으로 이어지지 않음을 보여줌.