대규모 언어 모델(LLM)은 복잡한 문제는 해결하지만 더 간단한 변형 문제에 실패하는 경향이 있으며, 이는 인간의 추론 방식과는 근본적으로 다른 메커니즘을 통해 정답을 도출함을 시사한다. 이 논문은 이러한 격차를 이해하기 위해 인지 과학 연구를 종합하여 추론 불변량, 메타 인지 제어, 추론 및 지식 구성을 위한 표현, 변환 연산 등을 포함하는 28개의 인지 요소 분류 체계를 제시한다. 18개 모델의 192,000개 추적, 54개의 인간 사고 과정 추적에 대한 대규모 실험적 분석을 수행하여, 성공과 연관된 인지 요소의 부족, 특히 메타 인지 제어의 부족을 발견했다. 또한, 테스트 시간 추론 지침을 개발하여 복잡한 문제의 성능을 최대 66.7%까지 향상시켰다. 이 연구는 인지 과학과 LLM 연구 간의 공유 어휘를 구축하여 추론 실패를 체계적으로 진단하고, 견고한 인지 메커니즘을 통해 추론하는 모델 개발을 가능하게 한다.