본 논문은 다양한 실험 조건에서 모델의 행동을 설명하는 광범위한 전략들을 통합적으로 이해하고자, In-context learning (ICL)에서 모델이 서로 다른 전략들을 학습하는 이유를 탐구합니다. 특히, 기존 연구에서 많이 사용되는 다양한 작업들의 혼합 학습 환경에서 모델이 학습하는 ICL 전략들을 베이지안 예측기의 틀 안에서 설명합니다. 이는 암기 예측기(이산적 사전 가정)와 일반화 예측기(사전이 기저 작업 분포와 일치)로 구성됩니다. 합리적 분석의 관점을 채택하여, 계산적 제약을 고려한 데이터에 대한 최적 적응으로 학습자의 행동을 설명하는 계층적 베이지안 프레임워크를 개발합니다. 이 프레임워크는 모델의 가중치에 접근하지 않고도 학습 전 과정에 걸쳐 Transformer의 다음 토큰 예측을 거의 완벽하게 예측합니다. 본 프레임워크에서는 사전 학습을 다양한 전략들의 사후 확률을 업데이트하는 과정으로, 추론 시점의 행동을 이러한 전략들의 예측에 대한 사후 가중 평균으로 봅니다. 신경망 학습 역학에 대한 일반적인 가정을 바탕으로, 후보 전략 간 손실과 복잡성 사이의 절충 관계를 명시적으로 제시합니다. 즉, 데이터를 얼마나 잘 설명하는지 외에도, 모델이 특정 전략을 구현하는 것을 선호하는 정도는 그 전략의 복잡성에 의해 결정됩니다. 이는 잘 알려진 ICL 현상을 잘 설명하는 동시에, 예를 들어 작업 다양성이 증가함에 따라 일반화에서 암기로 전환되는 시간 척도의 초선형 추세와 같은 새로운 예측을 제공합니다. 전반적으로 본 연구는 전략 손실과 복잡성 간의 절충 관계에 기반한 ICL에 대한 설명적이고 예측적인 설명을 제시합니다.