본 논문은 대규모 언어 모델(LLM)이 복잡한 문제는 해결하지만 간단한 변형에는 실패하는 현상을 분석하며, 인간의 추론 방식과 근본적으로 다른 메커니즘을 통해 정답을 도출한다는 점을 지적한다. 인지 과학 연구를 기반으로 28개의 인지 요소(계산적 제약, 메타인지적 통제, 지식 표현, 변환 연산)를 포함하는 분류 체계를 구축하고, 170,000개의 LLM 추론 흔적과 54개의 인간 사고 과정 흔적을 분석하여 구조적 차이점을 밝힌다. 특히, 인간은 계층적 중첩과 메타인지적 모니터링을 사용하는 반면, LLM은 얕은 순방향 체이닝에 의존하며, 비정형 문제에서 이러한 차이가 두드러진다. 또한, LLM 관련 연구의 메타 분석을 통해 연구 커뮤니티가 정량화 가능한 행동(순차적 구성, 분해)에 집중하고, 성공과 관련된 메타인지적 통제(자기 인식, 평가)를 간과한다는 점을 강조한다. 이러한 패턴을 활용하여, 성공적인 구조를 자동으로 스캐폴딩하는 테스트 시간 추론 지침을 개발하고, 복잡한 문제에 대한 성능을 최대 60%까지 향상시킨다. 본 연구는 인지 과학과 LLM 연구를 연결하여, 취약한 추론 지름길이나 암기 대신 원칙적인 인지 메커니즘을 통해 추론하는 모델 개발의 기반을 마련한다.