본 논문은 언어 모델링을 위한 상태 공간 모델(SSMs)이 이차-어텐션 트랜스포머에 대한 효율적이고 성능이 뛰어난 대안이 될 수 있지만, 맥락에서 기본 정보를 회상하는 데 있어 성능이 가변적임을 다룹니다. 연상 회상(AR)과 같은 합성 과제에 대한 성능은 이러한 결함을 지적할 수 있지만, 행동 측정 지표는 어떤 아키텍처가 실패하고 다른 아키텍처가 성공하는지에 대한 메커니즘적 수준의 정보를 거의 제공하지 않습니다. 이를 해결하기 위해, 저자들은 AR에 대한 실험을 수행하여 트랜스포머와 Based SSM 모델만이 AR에 완전히 성공하고, Mamba가 그 뒤를 잇는 반면, 다른 SSM(H3, Hyena)은 실패함을 발견합니다. 그런 다음 인과적 개입을 사용하여 그 이유를 설명합니다. 트랜스포머와 Based는 유도 헤드를 사용하여 맥락 내에서 키-값 연관성을 저장하는 것을 학습하는 반면, SSM은 마지막 상태에서만 이러한 연관성을 계산하며, Mamba는 짧은 합성곱 구성 요소 때문에 성공합니다. 이러한 발견을 확장하고 심화하기 위해, 저자들은 PCFG 유도를 기반으로 AR과 유사한 합성 과제인 연관 트리콜(ATR)을 제시합니다. ATR은 AR 설정에 언어와 같은 계층적 구조를 도입합니다. 모든 아키텍처가 AR에서와 같은 메커니즘을 학습하고, 동일한 세 가지 모델이 과제에 성공함을 발견합니다. 이러한 결과는 정확도가 유사한 아키텍처라도 상당한 차이가 있을 수 있음을 보여주며, 메커니즘적 평가의 채택을 촉구합니다.