본 논문은 인컨텍스트 학습(ICL)이 특이한 출현 현상이 아닌, 표준 자기 지도 학습 방식의 예측 가능한 결과임을 주장합니다. 특히 분포 내 ICL에 초점을 맞춰 토큰 시퀀스, 특히 비에르고딕 소스로부터 학습된 모델이 문맥에 적응하는 방식을 보여줌으로써 ICL 출현의 기본 원리를 확립합니다. 정보 이론적 프레임워크를 통해 분포 내 ICL 동역학(즉, 문맥 의존적 손실 감소)을 정확하게 예측하고, 상관 구조가 다른 합성 데이터셋을 사용한 실험을 통해 유도 헤드 형성의 위상 전이 및 문맥 내 손실의 거듭제곱 법칙 스케일링과 같은 특징적인 현상을 재현합니다. 또한 모델의 어떤 과제에 대한 문맥 내 성능이 사전 학습에서 관찰된 과제들의 집합과 수학적으로 결합되어 있음을 보여주어, 아키텍처 및 모달리티에 독립적인 원리를 기반으로 한 근본적인 설명을 제공합니다.