본 논문은 대규모 언어 모델 학습을 위한 효율적이고 확장 가능한 학습 스케줄링 방법을 제시한다. 기존의 cosine learning rate schedule과 같은 고정된 컴퓨팅 예산을 가진 전략들은 모델과 데이터셋 크기가 급격히 증가함에 따라 부적절해지고 있다. warmup-stable-decay (WSD) 스케줄 및 가중치 평균화와 같은 최근 대안들이 제시되었지만, WSD는 진행 상황 추적을 위해 명시적인 감쇠 단계에 의존하고, 가중치 평균화는 추가 메모리가 필요하다는 단점이 있다. 본 논문에서는 Schedule-Free (SF) 방법을 재검토하여 이러한 문제점을 해결한다. SF-AdamW는 감쇠 단계나 보조 평균화 없이 손실 지형의 "강" 구조를 효과적으로 탐색하며, 지속적으로 확장되는 학습 작업에 특히 적합하다. 이러한 동작을 이해하기 위해 SF 역학에 대한 이론적 및 실험적 분석을 수행하여 메모리 오버헤드 없이 암시적으로 가중치 평균화를 수행함을 보여준다. 이 분석을 바탕으로 모멘텀에 대한 강건성을 향상시키고 큰 배치 크기에서 성능을 향상시키는 개선된 SF 변형을 제안한다.