본 논문은 대규모 언어 모델(LLM)의 성능 평가 지표가 포화되는 현상을 해결하기 위해 기존 평가 방식을 점진적으로 어려워지는 일련의 과제로 변환하는 일반적인 방법을 제안합니다. 이를 통해 추론 능력을 강조하고 기존 평가에서는 드러나지 않는 상대적 성능 차이를 밝힐 수 있습니다. 새로운 객관식 시험 말뭉치를 만들고 이를 다양한 평가로 확장하여 여러 LLM을 평가함으로써, 특히 기본 LLM과 최근의 "추론" 모델 간의 차이를 강조하는 결과를 제시합니다.