본 논문은 Best-of-N과 같은 테스트 시간 정렬 방법의 계산 비용 문제를 해결하기 위해, 프롬프트에 따른 정렬 난이도를 고려하여 추론 시간 계산을 효율적으로 할당하는 프롬프트 적응형 전략을 제안합니다. 두 단계 알고리즘을 통해, 첫 번째 단계에서 작은 탐색 예산으로 각 프롬프트의 보상 분포를 추정하고, 두 번째 단계에서 이 추정치를 사용하여 남은 예산을 적응적으로 할당합니다. 이 방법은 간단하고 실용적이며, 모든 LM/RM 조합과 호환됩니다. AlpacaEval 데이터셋을 사용한 실험 결과, 제안된 적응형 전략은 동일한 추론 예산을 가진 균일 할당 방식보다 일관되게 우수한 성능을 보였으며, 20% 더 큰 추론 예산을 가진 균일 할당 방식과도 경쟁력을 유지하고, 배치 크기가 증가함에 따라 성능이 향상됨을 보였습니다.