본 논문은 대규모 언어 모델(LLM) 학습에서 자주 사용되는 Warm-up, Constant Plateau/Stable Phase, Decay (WSD) 학습률(LR) 스케줄의 기계적 설명을 탐구하고, Plateau 높이와 Decay 스케줄 선택의 근거를 제시합니다. Mpemba 효과(더 뜨거운 시스템이 더 빨리 식는 현상)를 열역학적 유추로 활용하여, 가파른(Valley) 방향과 평평한(River) 방향으로 구성된 "Valley-River" 손실 지형을 분석합니다. Mpemba 효과를 통해 Warm-up 단계의 필요성과 Decay 과정에서 손실 감소를 가속화하기 위한 높은 Plateau의 중요성을 설명합니다. 특정 손실 지형에서는 최적의 Plateau 학습률("Strong Mpemba Point")이 존재하여 Decay 단계에서 수렴 속도가 빨라짐을 보이고, 이의 존재 조건과 Mpemba 효과를 유지하기 위한 Decay 역학을 유도합니다. 최소 모델과 분석을 통해 Plateau 기반 스케줄러에 대한 원리적 정당성을 제공하고, 최소한의 하이퍼파라미터 탐색으로 LLM의 LR 조정에 대한 지침을 제시합니다.