본 논문은 변환기 언어 모델(LM)이 진화하는 세계의 관찰되지 않은 상태를 추적하는 것처럼 보이는 행동(이야기 생성, 코드 생성 등)을 어떻게 수행하는지 연구합니다. 연구진은 순열 조합(일련의 교환 후 객체 집합의 순서 계산)을 수행하도록 훈련되거나 미세 조정된 LM에서 상태 추적을 연구했습니다. 이 간단한 대수적 구조의 문제는 다른 많은 작업(예: 유한 오토마타 시뮬레이션 및 부울 식 평가)으로 축소될 수 있으므로 일반적인 상태 추적을 위한 자연스러운 모델입니다. 연구 결과, LM은 이 작업에 대해 두 가지 상태 추적 메커니즘 중 하나를 일관되게 학습한다는 것을 보여줍니다. 첫 번째는 Liu et al. (2023) 및 Merrill et al. (2024)의 최근 이론적 연구에서 사용된 "연관 스캔" 구성과 매우 유사합니다. 두 번째는 계산이 용이한 특징(순열 패리티)을 사용하여 출력 공간을 부분적으로 가지치기한 다음 연관 스캔으로 이를 개선합니다. 두 메커니즘은 현저하게 다른 강건성 특성을 나타내며, 휴리스틱을 장려하거나 억제하는 중간 훈련 작업을 통해 LM을 한쪽 또는 다른 쪽으로 유도하는 방법을 보여줍니다. 이러한 결과는 사전 훈련되거나 미세 조정된 변환기 LM이 효율적이고 해석 가능한 상태 추적 메커니즘을 구현하도록 학습할 수 있으며, 이러한 메커니즘의 출현은 예측 및 제어할 수 있음을 보여줍니다.