본 논문은 대규모 언어 모델(LLM)의 연역적 추론 능력을 평가하기 위한 새로운 벤치마크인 JustLogic을 제안합니다. 기존 벤치마크의 한계점인 낮은 작업 복잡성, 배경 지식의 혼란 변수, 피상적인 오류 분석을 해결하기 위해, JustLogic은 다양한 언어 패턴, 어휘, 논증 구조를 생성하는 높은 복잡성, 배경 지식에 의존하지 않는 설계, 그리고 추론 깊이와 논증 형태에 대한 심층적인 오류 분석 기능을 제공합니다. 실험 결과, 최첨단 추론 LLM은 평균적인 인간의 성능과 비슷하거나 우수하지만 최고 수준의 인간 성능에는 크게 못 미치고, 최첨단 비추론 모델은 평균적인 인간의 성능에도 못 미치는 것으로 나타났습니다. 모든 코드와 데이터는 깃허브에서 공개됩니다.