본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상에 효과적인 테스트 시간 스케일링(TTS)에서 검증의 중요성을 강조합니다. 기존의 최종 출력 또는 개별 생성 단계만 검증하는 방식에서 벗어나, 검증의 세분성(verifier가 생성 과정 중 얼마나 자주 호출되는지)에 대한 체계적인 연구를 최초로 시도합니다. 이를 위해, 조정 가능한 세분성 매개변수 g를 통해 빔 서치와 Best-of-N 샘플링을 일반화하는 통합 알고리즘인 Variable Granularity Search (VG-Search)를 제안합니다. 다양한 컴퓨팅 예산, 생성기-검증기 구성 및 작업 속성 하에서 VG-Search에 대한 광범위한 실험을 통해 g를 동적으로 선택하는 것이 컴퓨팅 효율성과 스케일링 동작을 개선할 수 있음을 보여줍니다. 이러한 결과를 바탕으로, 빔 서치보다 최대 3.1%, Best-of-N보다 최대 3.6%의 정확도 향상을 달성하면서 FLOPs를 52% 이상 감소시키는 적응형 VG-Search 전략을 제안합니다. 향후 연구를 지원하기 위해 코드를 공개할 예정입니다.