본 논문은 대규모 언어 모델(LLM)의 상식 추론 능력 평가를 위한 새로운 접근 방식을 제안합니다. 기존의 텍스트 기반 평가 방식 대신, 37가지 일상 활동에 대한 암묵적인 지식을 그래프 구조로 표현하는 어노테이션 체계를 제시합니다. 이를 통해 약 10¹⁷개의 상식 질문을 생성하고, LLM의 상식 추론 능력을 엄격하게 평가할 수 있습니다. 또한, 제시된 그래프 구조를 활용하여 LLM 내부의 추론 과정을 분석하고, 실제 상황에서의 추론 능력을 평가하는 메커니즘을 설계하는 방안을 제시합니다. 연구 결과는 LLM 내 특정 구성 요소가 상식 질문에 대한 의사결정 과정에서 중요한 역할을 한다는 것을 시사합니다.