본 논문은 변환기 언어 모델(LMs)이 진화하는 세계의 관찰되지 않은 상태를 추적하는 것처럼 보이는 행동(스토리텔링부터 코드 생성까지)을 어떻게 수행하는지 연구합니다. 연구진은 순열 조합(일련의 교환 후 객체 집합의 순서를 계산)을 수행하도록 훈련되거나 미세 조정된 LM에서 상태 추적을 연구했습니다. 이 문제의 단순한 대수 구조에도 불구하고, 많은 다른 작업(예: 유한 오토마타의 시뮬레이션 및 부울 식의 평가)을 순열 조합으로 축소할 수 있으므로 일반적인 상태 추적을 위한 자연스러운 모델이 됩니다. 연구 결과, LM은 이 작업에 대해 두 가지 상태 추적 메커니즘 중 하나를 일관되게 학습한다는 것을 보여줍니다. 첫 번째는 Liu et al. (2023)과 Merrill et al. (2024)의 최근 이론적 연구에서 사용된 "결합 스캔" 구성과 매우 유사합니다. 두 번째는 계산하기 쉬운 특징(순열 패리티)을 사용하여 출력 공간을 부분적으로 가지치기한 다음 결합 스캔으로 이를 개선합니다. 두 메커니즘은 현저히 다른 강건성 특성을 나타내며, 휴리스틱을 장려하거나 억제하는 중간 훈련 작업을 통해 LM을 하나 또는 다른 메커니즘으로 유도하는 방법을 보여줍니다. 이 연구 결과는 사전 훈련되거나 미세 조정된 변환기 LM이 효율적이고 해석 가능한 상태 추적 메커니즘을 구현하는 방법을 학습할 수 있으며, 이러한 메커니즘의 출현을 예측하고 제어할 수 있음을 보여줍니다.