Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EvoLM: In Search of Lost Language Model Training Dynamics

Created by
  • Haebom
Category
Empty

저자

Zhenting Qi, Fan Nie, Alexandre Alahi, James Zou, Himabindu Lakkaraju, Yilun Du, Eric Xing, Sham Kakade, Hanlin Zhang

개요

EvoLM은 현대 언어 모델(LM) 훈련의 여러 단계에서 설계 선택의 영향을 평가할 수 있도록 하는 모델 스위트입니다. 1B 및 4B 파라미터의 100개 이상의 LM을 처음부터 훈련하고, 사전 훈련, 지속적 사전 훈련, 지도 미세 조정 및 강화 학습 전반에 걸쳐 업스트림(언어 모델링) 및 다운스트림(문제 해결) 기능을 평가합니다. EvoLM은 사전 훈련과 사후 훈련의 과도한 사용에서 얻는 이점 감소, 도메인별 지속적 사전 훈련 중 망각 완화의 중요성 및 방법, 사전 훈련과 사후 훈련 단계를 연결하는 지속적 사전 훈련의 역할, 지도 미세 조정 및 강화 학습 구성 시의 다양한 복잡한 트레이드 오프를 밝혀냅니다.

시사점, 한계점

과도한 사전 훈련과 사후 훈련에서 얻는 이점 감소.
도메인별 지속적 사전 훈련 중 망각 완화의 중요성.
사전 훈련과 사후 훈련 단계를 연결하는 지속적 사전 훈련의 역할.
지도 미세 조정 및 강화 학습 구성 시의 다양한 복잡한 트레이드 오프.
1B 및 4B 파라미터 모델에 대한 실험만 진행.
특정 모델 아키텍처 및 훈련 설정에 국한될 수 있음.
👍