본 논문은 미로 풀이 작업에 학습된 트랜스포머 모델에서 월드 모델(World Models, WMs)을 식별합니다. 희소 오토인코더(Sparse Autoencoders, SAEs)와 어텐션 패턴 분석을 통해 WM의 구성을 조사하고, SAE 특징 기반 분석과 회로 기반 분석 간의 일관성을 보여줍니다. 격리된 특징에 개입하여 인과적 역할을 확인한 결과, 특징을 활성화하는 것이 억제하는 것보다 쉽다는 것을 발견했습니다. 또한, 모델은 학습 중에 접했던 것보다 더 많은 동시 활성 특징을 포함하는 미로에 대해 추론할 수 있지만, 동일한 미로(더 많은 연결 포함)를 입력 토큰을 통해 제공하면 모델이 실패한다는 것을 발견했습니다. 마지막으로, 위치 인코딩 방식이 모델의 잔차 스트림 내에서 월드 모델이 구축되는 방식에 영향을 미치는 것을 보여줍니다.