본 논문은 대규모 언어 모델(LLM)을 인간이 이해할 수 있는 계산 회로로 역설계하는 메커니즘 해석 가능성을 연구한다. 특히, 간접 목적어 식별(IOI) 문제에 대해 처음부터 학습된 작은 주의(attention) 전용 변환기(transformer)를 사용한다. 단일 레이어 모델이 두 개의 주의 헤드만으로도 IOI 문제를 완벽하게 해결하며, 잔여 스트림 분해, 스펙트럼 분석, 임베딩 개입을 통해 두 헤드가 덧셈 및 대비 서브 회로로 전문화되어 IOI 해결을 구현함을 발견했다. 또한, 두 개의 레이어와 하나의 헤드로 구성된 모델이 쿼리-값 상호 작용을 통해 정보를 계층 간에 조합하여 유사한 성능을 달성함을 보인다.