본 논문은 대규모 언어 모델(LLM)의 2단계 추론 능력에 대해 연구합니다. 소크라테스 예시와 같이 두 단계의 논리적 추론을 통해 결론을 도출하는 2단계 추론은 인간 추론의 기본 요소이지만, LLM은 방해 요소가 존재할 때 간단한 2단계 추론 문제를 풀지 못하는 경우가 있음을 발견했습니다. 합성 데이터셋을 사용한 실험에서 사전 훈련된 LLM은 가능한 결론 중 무작위로 추측하는 경향을 보였으나, 몇 차례의 미세 조정 후에는 거의 완벽한 정확도를 달성하고 길이 일반화를 잘 수행했습니다. 3계층 Transformer를 합성 2단계 추론 작업으로 학습시키고 내부 정보 흐름을 역설계하여 메커니즘을 분석했습니다. 훈련 과정에서 어텐션 로그의 명확한 변화를 관찰하여, 무작위 추측에서 이전 및 중간 개념을 먼저 검색하고 이를 사용하여 최종 답을 추론하는 구조화된 순차적 쿼리 메커니즘으로의 급격한 전환이 있음을 확인했습니다. 마지막으로, 이러한 동역학을 최소한의 세 가지 매개변수만을 가진 어텐션 전용 네트워크로 포착할 수 있음을 보였습니다.