본 논문은 대규모 언어 모델(LLM)의 테스트 시간 연산에 대한 증명 가능한 확장 법칙을 갖는 두 가지 간단하고 원칙적이며 실용적인 알고리즘을 제안합니다. 첫 번째 알고리즘은 두 단계의 노크아웃 방식 알고리즘으로, 입력 문제가 주어지면 먼저 여러 후보 솔루션을 생성한 다음 최종 출력을 위해 노크아웃 토너먼트를 통해 집계합니다. LLM이 0이 아닌 확률로 정답을 생성하고 정답과 오답을 비교하는 데 무작위 추측보다 나은 성능을 낸다고 가정하면, 이 알고리즘의 실패 확률은 테스트 시간 연산이 증가함에 따라 지수적으로 또는 거듭제곱 법칙으로 (확장 방식에 따라 다름) 0으로 감소한다는 것을 이론적으로 증명합니다. 두 번째 알고리즘은 두 단계의 리그 방식 알고리즘으로, 각 후보는 단일 상대방에게 패배하여 제거되는 대신 여러 상대방에 대한 평균 승률로 평가됩니다. 유사하지만 더 강력한 가정 하에, 그 실패 확률 또한 더 많은 테스트 시간 연산으로 0으로 지수적으로 감소한다는 것을 증명합니다. 두 알고리즘 모두 최소한의 구현을 위해 블랙박스 LLM과 다른 아무것도 (예: 검증자 또는 보상 모델 없음) 필요하지 않으므로 실제 응용 프로그램에 매력적이며 다양한 작업에 적용하기 쉽습니다. 다양한 모델과 데이터 세트를 사용한 광범위한 실험을 통해 제안된 이론을 검증하고 두 알고리즘의 뛰어난 확장 속성을 입증합니다.