Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining

Created by
  • Haebom
Category
Empty

저자

Kairong Luo, Zhenbo Sun, Haodong Wen, Xinyu Shi, Jiarui Cui, Chenyi Dang, Kaifeng Lyu, Wenguang Chen

개요

본 논문은 고품질 데이터 부족으로 인해 다양한 품질 수준의 데이터로 훈련되는 대규모 언어 모델(LLM)에서, 데이터 품질에 따라 정렬된 커리큘럼 기반 사전 훈련의 효과를 분석합니다. 기존 연구에서 커리큘럼 기반 훈련의 제한적인 성능 향상을 보인 원인을, 데이터 품질 순서와 학습률(LR) 감소 일정 간의 비호환성으로 파악했습니다. 특히, 표준 LR 감소 일정을 사용하면 커리큘럼 기반 훈련의 이점이 감소한다는 것을 발견했습니다. 본 연구는 이 문제를 해결하기 위해 (1) 완만한 LR 감소 일정 사용, (2) LR 감소 대신 모델 평균화 적용의 두 가지 간단한 전략을 제시했습니다. 이러한 전략을 결합하여, 추가적인 데이터 정제 없이도 표준 벤치마크에서 무작위 섞기보다 평균 1.64% 향상을 달성했습니다. 15억 개의 파라미터를 가진 모델을 300억 개의 토큰으로 훈련한 실험을 통해, 커리큘럼 기반 LLM 사전 훈련의 재평가를 요구하며, 데이터 커리큘럼과 최적화 방법의 공동 설계를 강조합니다.

시사점, 한계점

시사점:
커리큘럼 기반 훈련에서 학습률 감소 일정의 중요성을 강조하고, 완만한 LR 감소 일정 또는 모델 평균화를 통해 성능을 향상시킬 수 있음을 제시합니다.
데이터 커리큘럼과 최적화 방법의 공동 설계를 통해 LLM 훈련 성능을 향상시킬 수 있는 가능성을 보여줍니다.
추가적인 데이터 정제 없이도 기존의 무작위 섞기 방식보다 우수한 성능을 달성하여, 커리큘럼 기반 훈련의 실용성을 입증합니다.
한계점:
실험은 특정 크기의 모델(15억 파라미터)과 데이터셋(300억 토큰)에 국한되어, 다른 모델 크기나 데이터셋에 대한 일반화 가능성은 추가 연구가 필요합니다.
제안된 방법의 효과는 사용된 데이터 품질 측정 지표에 따라 달라질 수 있으며, 다양한 지표에 대한 추가 실험이 필요합니다.
완만한 LR 감소 일정 또는 모델 평균화의 최적 설정에 대한 연구가 더 필요하며, 이는 하이퍼파라미터 튜닝에 의존적일 수 있습니다.
👍