본 논문은 최첨단 대규모 언어 모델(LLM)이 올림피아드 수준 추론 문제에서는 뛰어난 성능을 보이지만, 표준 벤치마크 외부의 새로운 고등학교 수학 문제에서는 여전히 어려움을 겪는다는 점을 지적한다. 단순히 최종 정확도를 넘어, 논문에서는 LLM의 사고 과정 출력을 분석하기 위한 연역적 일관성 지표를 제안한다. 연역적 추론은 입력 전제 조건을 이해하고, 그로부터 도출되는 결론을 추론하는 두 가지 하위 작업으로 구성된다. 제안된 지표는 LLM이 증가하는 문맥 길이에서 입력 전제 조건을 얼마나 잘 이해하고, 여러 추론 단계를 거쳐 결론을 얼마나 잘 추론하는지를 연구하여 새로운 문제에 대한 LLM의 추론 오류를 설명하는 것을 목표로 한다. 기존 벤치마크가 암기될 수 있으므로, 논문에서는 벤치마크 문제의 새로운, 변형된 버전에서 LLM의 연역적 일관성을 평가하기 위한 파이프라인을 개발한다. 새로운 초등학교 수학 문제(GSM-8k)에 대한 실험 결과, LLM은 입력 전제 조건의 수가 증가해도 상당히 견고하지만, 추론 단계의 수가 증가함에 따라 정확도가 크게 저하되는 것을 발견했다. 흥미롭게도, 모든 모델이 거의 100%의 정확도를 달성했기 때문에 이러한 오류는 원래 벤치마크에서는 감지되지 않았다. 합성 데이터 세트를 사용하여 해결 단계의 수를 늘리면, 여러 단계에 걸친 예측이 입력 전제 조건을 이해하는 것보다 여전히 주요 오류 원인으로 남는다. 언어 스타일의 변화나 초기 오류의 자연스러운 전파와 같은 다른 요인들은 이러한 경향을 설명하지 못한다. 본 분석은 LLM 추론을 입력 전제 조건과 추론 단계의 윈도우에 대한 계산으로 특징짓는 새로운 관점을 제공하며, 이는 문제 영역 전반에 걸쳐 통합된 평가를 제공할 수 있다.