본 논문은 In-context learning (ICL)이 대규모 언어 모델에서 어떻게 나타나는지에 대한 이론적 프레임워크를 제시한다. 변압기(transformer)의 ICL 성능이 모델 깊이($L$), 너비($d$), 컨텍스트 길이($k$), 훈련 데이터($D$)에 대해 power-law 관계를 따르며, 지수는 작업 구조에 의해 결정된다는 것을 밝힌다. 특정 조건에서 변압기가 정방향 전달에서 기울기 기반 메타 학습을 구현하며, 유효 학습률 $\eta_{\text{eff}} = \Theta(1/\sqrt{Ld})$를 가진다는 것을 보여준다. 또한, 임계 규모에서 급격한 위상 전이를 보이며, 고정된 매개변수 예산 $N = Ld$에 대해 $L^* \propto N^{2/3}$, $d^* \propto N^{1/3}$를 선호하는 최적의 깊이-너비 할당을 유도한다.