본 논문은 대규모 언어 모델(LLM)의 수학 문제 해결 능력 향상을 위한 테스트 시점 계산 검색 전략의 발전에 따라 강력한 검증기 구축의 필요성이 증대됨을 지적합니다. 기존 검증기는 주로 Best-of-N 검색을 위해 설계되어 트리 검색 기법에는 최적화되지 않았다는 한계를 밝히고, 부분적인 해결책을 간접적으로 평가하거나 유망한 중간 단계를 조기에 잘라내는 문제점을 제시합니다. 이를 해결하기 위해, 본 논문은 각 토큰에 정답에 도달할 가능성을 반영하는 확률을 할당하는 새로운 검증기인 토큰 감독 가치 모델(TVM)을 제안합니다. TVM은 토큰 단위 감독을 통해 부분적인 해결책을 직접적으로 평가하여, 트리 검색 중 유망한 중간 단계와 잘못된 중간 단계를 효과적으로 구분합니다. 실험 결과, 트리 검색 기반 추론 전략과 TVM을 결합하면 수학 문제 해결 과제에서 LLM의 정확도가 크게 향상되고 기존 검증기를 능가함을 보여줍니다.