본 논문은 트랜스포머 구조의 계층적 이질성을 고려하지 못하는 기존의 단일 학습률(uniform learning rate) 방식의 한계를 지적하며, 각 계층마다 다른 학습률을 적용하는 계층별 학습률(Layerwise Learning Rate, LLR) 기법을 제안한다. LLR은 가중치 상관행렬의 경험적 스펙트럼 밀도(ESD)의 꼬리 두꺼움(heavy-tailedness) 정도를 측정하여, 꼬리가 얇은(weaker heavy-tailedness) 계층에는 높은 학습률을, 꼬리가 두꺼운(stronger heavy-tailedness) 계층에는 낮은 학습률을 할당하여 학습을 가속화한다. 이를 통해 LLR은 더 균형 잡힌 계층별 학습을 촉진하여 더 빠른 수렴과 향상된 일반화 성능을 달성하며, 최대 1.5배의 학습 속도 향상과 벤치마크 모델에서 성능 개선을 보여준다.