본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 작업 성능 향상을 위해 테스트 시간 계산을 활용하는 새로운 접근 방식인 자체 향상 테스트 시간 스케일링(SETS)을 제안합니다. 기존의 병렬 스케일링 방법(반복 샘플링 또는 보상 모델 점수 매기기)은 조기 수렴 및 작업별 보상 모델 학습으로 인한 높은 비용 문제가 있고, SELF-REFINE과 같은 순차적 방법은 계산 증가를 효과적으로 활용하지 못합니다. SETS는 병렬 및 순차 기술을 전략적으로 결합하여 이러한 한계를 극복합니다. LLM의 자체 검증 및 자체 수정 기능을 활용하여 샘플링, 검증 및 수정을 단일 프레임워크로 통합합니다. 이를 통해 복잡한 작업에 대한 효율적이고 확장 가능한 테스트 시간 계산이 가능해지며, 계획, 추론, 수학, 코딩을 포함한 까다로운 벤치마크에 대한 실험 결과를 통해 기존 방법보다 성능 향상 및 더 유리한 테스트 시간 스케일링 동작을 보여줍니다.