본 논문은 대규모 언어 모델(LLM)의 테스트 시간 계산량을 위한 두 가지 간단하고 원리적이며 실용적인 알고리즘을 제안한다. 첫 번째는 넉아웃 방식의 2단계 알고리즘으로, 입력 문제에 대해 여러 후보 솔루션을 생성하고 넉아웃 토너먼트를 통해 최종 출력을 집계한다. LLM이 올바른 솔루션을 생성할 확률이 0이 아니고, 올바른 솔루션과 틀린 솔루션의 비교에서 무작위 추측보다 더 나은 성능을 보인다고 가정할 때, 이 알고리즘의 실패 확률은 테스트 시간 계산량이 증가함에 따라 지수적으로 또는 멱법칙적으로 감소함을 이론적으로 증명한다. 두 번째는 리그 방식의 2단계 알고리즘으로, 각 후보가 단일 상대에게 패배하는 대신 여러 상대와의 평균 승률로 평가된다. 유사하지만 더 강력한 가정을 통해, 이 알고리즘의 실패 확률 또한 테스트 시간 계산량이 증가함에 따라 지수적으로 감소함을 증명한다. 두 알고리즘 모두 블랙박스 LLM만 필요하며, 검증기나 보상 모델과 같은 추가 요소가 필요하지 않다. 광범위한 실험을 통해 제안된 이론을 검증하고 두 알고리즘의 뛰어난 스케일링 특성을 입증한다.