본 논문은 대규모 언어 모델(LLM)의 수학적 추론 능력이 모델 전체 또는 특정 모듈에서 기인하는지, 아니면 과적합의 산물인지에 대한 의문을 제기하며, 잘 훈련된 LLM의 추론 능력은 Transformer의 다중 헤드 자기 주의(MHSA) 메커니즘에서 출력 투영 모듈(oproj)에 주로 기인한다는 가설을 제시합니다. 이 가설을 뒷받침하기 위해, LLM의 내부 동작을 조사하고 분석하도록 설계된 진단 도구 모음인 Stethoscope for Networks (SfN)을 소개하고, SfN을 사용하여 oproj가 추론을 가능하게 하는 데 중추적인 역할을 하는 반면 다른 모듈은 유창한 대화에 더 많이 기여한다는 것을 시사하는 정황적 및 경험적 증거를 제시합니다. 이러한 결과는 LLM 해석성에 대한 새로운 관점을 제공하고, 더 효율적이고 전문화된 LLM을 가능하게 하는 더욱 표적화된 훈련 전략을 위한 새로운 가능성을 제시합니다.