본 논문은 장문 추론 과정에 대한 값 모델 훈련을 위한 간단하고 효율적인 방법을 제안합니다. 기존의 과정 보상 모델(PRM)과 달리, 장문 추론 모델에서 정의하기 어려운 "단계" 개념이 필요하지 않습니다. 250만 개의 추론 과정 데이터셋을 수집하여 15억 토큰 수준의 값 모델을 훈련하고, DeepSeek 모델에 적용하여 테스트 시간 계산량을 확장하면서 성능을 향상시켰습니다. 블록 단위 값 유도 검색(VGS)과 최종 가중 다수결 투표를 통해 다수결 투표나 상위 n개 선택과 같은 표준 방식보다 더 나은 테스트 시간 확장성을 달성함을 확인했습니다. 64세대의 추론 예산으로, DeepSeek-R1-Distill-1.5B를 사용한 VGS는 네 가지 경쟁 수학 벤치마크(AIME 2024 & 2025, HMMT 2024년 2월 & 2025년 2월)에서 평균 45.7%의 정확도를 달성하여 o3-mini-medium과 동등한 수준에 도달했습니다. 또한 VGS는 동일한 성능의 다수결 투표를 달성하는 데 필요한 추론 FLOPs를 크게 줄였습니다. 데이터셋, 모델 및 코드베이스는 오픈소스로 공개됩니다.