본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 구체적인 추론 과정을 명시하는 것이 유용하지만, 어떤 어려움을 해결하는지 명확하지 않다는 점을 다룹니다. 결정적 유한 오토마타(DFA)를 이용하여 과제의 복잡성을 실행 길이(추론 단계 수)와 상태 공간 크기(결정 복잡도)와 같은 측정 가능한 속성으로 특징짓는 프레임워크를 제시합니다. 다양한 과제와 크기 및 훈련 방식이 다른 모델에 걸쳐 정답을 생성할 확률을 극대화하는 최적의 추론 토큰 수가 존재함을 보여줍니다. 그리고 이러한 최적 길이를 결정하는 복잡성 속성을 조사하여, 더 긴 DFA 실행(잠재적 상태 추적 요구사항 증가)을 필요로 하는 과제 인스턴스는 더 긴 추론 길이와 상관관계가 있지만, 놀랍게도 DFA 크기(상태 공간 복잡도)는 상관관계가 없음을 발견합니다. 마지막으로, 새로운 문제에 대한 최적의 추론 토큰 수를 예측하고 최적 길이가 아닌 답변을 걸러내는 것이 정확도를 일관되게 향상시킨다는 것을 보여줍니다.