본 논문은 대규모 추론 모델의 논리적 추론 능력을 종합적으로 평가하기 위한 새로운 벤치마크인 LogiEval을 제시합니다. LogiEval은 LSAT, GMAT 등 고품질 인간 시험에서 추출한 다양한 유형(연역, 귀납, 유추, 그리고 함축 추론)과 형식(논리적 순서, 논증 분석 등)의 추론 문제를 포함합니다. 실험 결과, 최신 추론 모델은 4지 선다형 논증 분석 문제와 유추 추론에서 인간의 성능을 능가하지만, 추론 유형과 형식에 따라 성능이 고르지 않음을 보여주어 일반화 능력의 한계를 드러냅니다. 또한, 소규모 모델(Qwen3-30B-A3B)의 실패 사례를 바탕으로 어려운 문제들을 선별하여 LogiEval-Hard를 구성하고, 이를 통해 대규모 모델에서도 지속되는 근본적인 추론 병목 현상을 밝힙니다. LogiEval-Hard는 LLM의 논리적 추론 향상을 위한 진단 도구이자 엄격한 테스트베드 역할을 합니다.