본 논문은 언어 모델 추론을 위한 테스트 시간 스케일링을 재조명하며, 동일한 토큰 예산과 계산량에서 여러 독립적인 체인을 병렬로 실행하는 것과, 더 적은 수의 체인을 반복적인 단계로 개선하는 것 중 어느 것이 더 나은지 비교한다. 5개의 최첨단 오픈 소스 모델과 3개의 어려운 추론 벤치마크를 통해 포괄적인 평가를 수행한 결과, 이전 시도를 기반으로 체인이 명시적으로 구축되는 순차적 스케일링이 대부분의 경우 병렬 자기 일관성 패러다임을 능가한다는 것을 발견했다. 또한, 순차적 스케일링의 정확도를 더욱 높이기 위해, 훈련이 필요 없는 새로운 방법인 역 엔트로피 가중 투표를 제안한다.