본 논문은 대규모 언어 모델(LLM)의 응답 품질 향상을 위해 test-time 계산량 증가라는 직접적인 접근 방식을 제시합니다. Best-of-N 샘플링과 다수결 투표를 사용한 Self-Consistency는 간단하고 효과적이지만, 질문의 복잡성에 관계없이 고정된 샘플링 응답 수를 필요로 합니다. 이는 단순한 질문에는 계산 낭비를, 더 어려운 질문에는 탐색 부족을 초래할 수 있습니다. 따라서 본 논문에서는 모델 응답의 신뢰도를 활용하여 test-time scaling의 효율성을 향상시킬 수 있다고 주장합니다. LLM이 과신뢰하는 경향이 있고 신뢰도 추정이 신뢰할 수 없다는 점을 고려하여, Self-Consistency에서 얻은 신뢰도를 모델 자체에 증류하는 Self-Calibration을 제안합니다. 이를 통해 한 번의 순전파로 test-time에서 신뢰할 수 있는 신뢰도 추정이 가능해집니다. 그리고 Best-of-N에 대한 조기 중단 및 보정된 신뢰도를 사용한 Self-Consistency와 같이 다양한 난이도의 질문을 처리하기 위한 신뢰도 기반의 효율적인 test-time scaling 방법을 설계합니다. 세 가지 LLM과 여섯 가지 데이터셋에 대한 실험을 통해 제안된 방법의 효과를 보여줍니다. 예를 들어, Best-of-N에 신뢰도 기반 조기 중단을 적용하면 샘플 수 16개로 MathQA 정확도가 81.0에서 83.6으로 향상됩니다.