Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Overtrained Language Models Are Harder to Fine-Tune

Created by
  • Haebom

저자

Jacob Mitchell Springer, Sachin Goyal, Kaiyue Wen, Tanishq Kumar, Xiang Yue, Sadhika Malladi, Graham Neubig, Aditi Raghunathan

개요

본 논문은 대규모 언어 모델(LLM)의 사전 학습에 대한 기존의 가정, 즉 더 많은 토큰으로 사전 학습할수록 성능이 향상된다는 가정에 대해 도전장을 던집니다. 연구진은 과도한 사전 학습이 모델의 파인튜닝을 어렵게 만들어 최종 성능을 저하시키는 "파국적 과적합(catastrophic overtraining)" 현상을 발견했습니다. 3조 토큰으로 사전 학습된 OLMo-1B 모델이 2.3조 토큰으로 사전 학습된 모델보다 여러 LLM 벤치마크에서 2% 이상 성능이 저하된다는 사례를 제시하며, 이 현상이 사전 학습된 파라미터의 민감도 증가로 인해 발생한다는 것을 통제된 실험과 이론적 분석을 통해 보여줍니다. 따라서 모델의 하류 적응성을 고려한 사전 학습 설계의 재평가가 필요함을 시사합니다.

시사점, 한계점

시사점:
대규모 언어 모델의 사전 학습 데이터 크기가 무조건 성능 향상으로 이어지지 않음을 보여줌.
파국적 과적합 현상을 규명하고, 그 원인을 분석함.
모델의 하류 적응성을 고려한 새로운 사전 학습 설계의 필요성 제기.
한계점:
OLMo-1B 모델에 대한 분석에 국한되어 일반화 가능성에 대한 추가 연구 필요.
파국적 과적합 현상을 완화하기 위한 구체적인 해결책 제시 부족.
이론적 분석의 범위와 심도에 대한 추가적인 검토 필요.
👍