본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 주요 패러다임으로, 검증자 또는 보상 모델에 대한 검색에 더 많은 추론 시간 연산을 할당하는 것을 연구합니다. 연쇄 사고(CoT) 생성을 준안정 마르코프 과정으로 보고, 쉬운 추론 단계는 밀집 연결 클러스터를, 어려운 추론 단계는 드문, 낮은 확률의 클러스터 간 연결을 만든다는 것을 보여줍니다. 이러한 틀에서, 드문 연결을 보상하는 검색 프로토콜이 예상 단계 수를 줄여 CoT를 개선한다는 것을 증명합니다. 또한, 사전 학습된 그래프의 지역 정보로 모델이 제한될 때 추론 능력의 한계를 설정하고, 검색으로 얻은 정보를 사용하여 더 나은 추론 모델을 얻을 수 있음을 보여줍니다. 구체적으로, 정책 경사 방법을 통해 사전 학습된 모델을 직접 미세 조정하여 드문 연결을 선호하도록 할 수 있으며, 추론 역학의 압축된 준안정 표현을 더 작고 효율적인 모델로 증류할 수 있습니다.