본 논문은 인컨텍스트 학습(ICL)이 특별한 출현 현상이 아니라 표준 자기 지도 방식의 다음 토큰 예측 학습에서 예측 가능하게 발생한다고 주장합니다. 특히 비에르고딕 소스의 토큰 시퀀스를 학습할 때 모델이 맥락에 적응하는 방식을 보여주는 분포 내 ICL에 초점을 맞춰 이러한 출현의 기본 원리를 확립합니다. 정보 이론적 프레임워크를 사용하여 분포 내 ICL 역학(즉, 맥락 의존 손실 감소)을 정확하게 예측하고, 상관 구조가 다른 합성 데이터셋을 사용한 실험을 통해 유도 헤드 형성의 상전이 및 맥락 내 손실의 거듭제곱 법칙 스케일링과 같은 특징적인 현상을 재현합니다. 또한, 어떤 작업에 대한 모델의 맥락 내 성능이 사전 학습에서 본 작업들의 앙상블과 수학적으로 결합되어 있음을 보여줌으로써, 아키텍처 및 모달리티에 독립적인 원리를 바탕으로 이러한 추론 시간 학습에 대한 근본적인 설명을 제공합니다.