본 논문은 기존 최첨단 모델 평가 기준의 한계점을 지적하며, 일반적인 상식만으로 해결 가능한 NPR Sunday Puzzle Challenge 기반의 새로운 벤치마크를 제시합니다. 594개의 문제로 구성된 이 벤치마크는 사람과 모델 모두에게 어려운 과제를 제시하지만, 정답 확인 및 모델의 오류 파악이 용이하다는 특징을 가지고 있습니다. 이는 전문 지식 없이도 평가 결과를 이해할 수 있도록 설계되어, 사회 전반에 걸쳐 활용도가 높아지는 거대 언어 모델(LLM)의 평가에 적합합니다. 본 연구는 기존 벤치마크에서는 드러나지 않았던 모델의 능력 차이를 보여주며, OpenAI o1 모델의 우수성과 DeepSeek R1 모델의 특징적인 실패 유형(포기, 불확실성, 사고 과정 미완료)을 분석합니다. 또한, 추론 시간의 효과를 정량적으로 분석하여 정확도 향상에 기여하지 않는 지점을 밝힙니다.