본 논문은 2023년 12월부터 2024년 8월까지 최첨단 대규모 언어 모델(LLM)의 자동 정리 증명기(ATP) 추론 전략 사용 능력을 실증적으로 평가한 연구입니다. PRONTOQA steamroller 추론 문제를 사용하여 GPT-4 이후 모델들의 성능을 평가하고, LLM 응답 정확도와 정답 상관관계를 평가하는 방법을 개발했습니다. 결과적으로, 9개월 동안 LLM 추론 능력 향상이 정체되었음을 보여주었으며, GPT-4 이후의 추론 능력 향상은 대부분 은닉 시스템 프롬프트나 일반적인 사고 과정 프롬프팅 전략을 자동으로 사용하도록 모델을 훈련한 결과임을 밝혔습니다. ATP 추론 전략 중에서는 하향식(순차적 추론) 전략을 가장 잘 따르는 것으로 나타났으며, LLM 응답에 정확한 추론이 포함되어 있더라도 정확한 결론에 도달하는 상관관계는 낮았습니다.