본 논문은 대규모 언어 모델(LLM)의 지능을 측정하는 중요한 지표인 자연어 논리 추론 능력을 평가하기 위해, 기존 벤치마크의 문제점을 해결하고 새로운 벤치마크와 평가 지표를 제안한다. 기존 벤치마크는 여러 추론 기술을 얽히게 하여 정확한 평가를 방해하고, 언어 다양성이 부족하며 이상적인 벤치마크의 분포에서 벗어나 편향된 결과를 초래할 수 있다. 이에 본 논문은 직관적이지 않은 방식으로 다양한 문장으로 구성된 자연어 문장으로 이루어진 새로운 고전 논리 벤치마크 DivLogicEval을 제안한다. 또한, LLM의 편향과 무작위성의 영향을 줄이는 새로운 평가 지표를 도입한다. 실험을 통해 DivLogicEval의 질문에 답하기 위해 필요한 논리적 추론의 정도를 확인하고, 다양한 LLM의 논리 추론 수행 능력을 비교한다.