Transformer 모델은 자연어 처리 분야에서 지배적인 아키텍처가 되었으며, 특히 in-context learning (ICL) 능력으로 성공을 거두었습니다. 본 연구는 ICL에 중요한 역할을 하는 2층 Transformer 내의 induction head 메커니즘의 출현을 연구합니다. 저자들은 induction head를 구현하는 가중치 행렬의 비교적 단순하고 해석 가능한 구조를 발견하고, 최소 ICL 작업 및 수정된 Transformer 아키텍처를 사용하여 이 구조의 기원을 이론적으로 설명합니다. 또한, 훈련 역학이 19차원 부분 공간에 제한된다는 것을 공식적으로 증명하고, 경험적으로 이를 검증하여 단 3차원이 induction head의 출현을 설명함을 확인했습니다. 연구 결과는 induction head의 출현 시간이 입력 컨텍스트 길이에 대해 이차적인 점근적 경계를 따른다는 것을 보여줍니다.