본 논문은 변수 바인딩(variable binding) 능력, 즉 변수와 값을 연결하는 능력이 기호적 계산과 인지에 필수적임을 전제로, 내장된 바인딩 연산이 없는 현대적인 신경망이 이러한 능력을 어떻게 습득하는지 조사한 연구이다. 연구진은 변수에 숫자 상수 또는 다른 변수를 할당하는 기호적 프로그램에서 쿼리된 변수를 역참조하도록 Transformer를 훈련시켰다. 각 프로그램은 쿼리된 값을 찾기 위해 최대 4단계까지 변수 할당 체인을 따라가야 하며, 방해 요소로서 무관한 할당 체인도 포함한다. 분석 결과, 훈련 중 세 가지 뚜렷한 단계, 즉 (1) 숫자 상수의 무작위 예측, (2) 초기 변수 할당을 우선시하는 단순 휴리스틱, (3) 할당 체인을 역참조하기 위한 체계적인 메커니즘의 출현을 보였다. 인과적 개입을 사용하여 모델이 잔차 스트림을 주소 지정 가능한 메모리 공간으로 활용하고, 특수한 어텐션 헤드가 토큰 위치 간 정보를 라우팅하는 것을 학습함을 발견했다. 이 메커니즘을 통해 모델은 계층 간 변수 바인딩을 동적으로 추적하여 정확한 역참조를 수행할 수 있다. 결과적으로 Transformer 모델이 명시적인 아키텍처 지원 없이 체계적인 변수 바인딩을 구현하는 방법을 보여주어 연결주의와 기호적 접근 방식을 연결한다.