본 연구는 Winograd Schema Challenge (WSC)를 활용하여 대규모 언어 모델(LLM)의 상식 추론 능력을 평가하는 방법을 자세히 살펴봅니다. 다양한 크기의 생성 모델들을 널리 사용되는 WinoGrande 벤치마크를 통해 평가하고, WinoGrande 검증 세트의 각 인스턴스를 바꿔쓴 새로운 말뭉치인 WinoWhat을 공개합니다. 또한, 다섯 가지 상식 지식 범주에서 과제에 대한 성능을 평가하여 어떤 유형의 지식이 LLM에 더 어려운지에 대한 세분화된 통찰력을 제공합니다. 놀랍게도 모든 모델은 WinoWhat에서 성능이 현저히 저하되었는데, 이는 LLM 추론 능력이 WinoGrande에서 과대평가되었음을 시사합니다. 벤치마크 암기 효과 여부를 확인하기 위해 벤치마크 인스턴스를 LLM 학습 데이터와 일치시켜 두 개의 테스트 세트를 만들었습니다. 그 결과, WinoGrande에서 모델 성능에 대한 암기 효과는 최소한으로 나타났습니다.