본 논문은 대규모 언어 모델(LLM)의 추론 오류 문제를 해결하기 위해, 구조화된 솔루션과 자동 단계별 정확성 검증을 갖춘 새로운 퍼즐 데이터셋인 ArrangementPuzzle을 제시합니다. LLM의 활성화를 이용하여 분류 모델을 학습시킨 결과, 추론의 정확성을 80% 이상의 정확도로 예측할 수 있음을 확인했습니다. 이는 LLM이 내부적으로 정확한 추론 단계와 잘못된 추론 단계를 구분하며, 특히 Transformer 아키텍처의 중간 및 후반 레이어에서 가장 강력한 표현을 보인다는 것을 시사합니다. 추가 분석을 통해 LLM이 Transformer 아키텍처의 중간 활성화 레이어에 추상적인 추론 개념을 인코딩하고, 논리적 동등성과 의미적 동등성을 구분한다는 것을 밝혔습니다.