인간과 동물은 최소한의 경험으로 새로운 환경에 적응하는 뛰어난 학습 효율성을 보인다. 기존의 강화 학습 알고리즘은 이러한 능력을 잘 포착하지 못한다. 본 연구에서는 변압기를 사용하여 쥐의 행동을 모방한 계획 작업 환경에서 문맥 내 강화 학습을 수행하고, 모델에서 나타나는 학습 알고리즘을 분석한다. 그 결과, 표현 학습은 문맥 내 구조 학습과 상호 연관성 정렬을 통해 지원되며, 강화 학습 전략은 표준 모델 프리 또는 모델 기반 계획으로 해석되지 않음을 확인했다. 대신, 문맥 내 강화 학습은 모델의 메모리 토큰 내에서 중간 계산을 캐싱하여 지원되며, 의사 결정 시 이러한 캐싱된 정보를 활용한다.