대규모 언어 모델(LLM)은 추론 문제에서 놀라운 성과를 거두었지만, 다단계, 규칙 기반 계산을 수행하는 절차적 추론 능력이 불분명하다. 본 논문은 LLM의 절차적 추론 능력을 평가하기 위한 해석 가능한 프레임워크인 유한 상태 머신(FSM) 실행을 제시한다. 모델은 명시적인 FSM 정의를 받고 입력 작업에 따라 단계별로 실행하며, 여러 턴에 걸쳐 상태 일관성을 유지해야 한다. 이 작업은 세계 지식이 필요 없이 결정론적 변환 규칙을 충실하게 적용하는 것만 요구하므로, 모델의 내부 절차적 충실도를 직접적으로 검사한다.