본 논문은 대규모 언어 모델(LLM)의 미세 조정에 따른 높은 계산 비용 문제를 해결하기 위해, 테스트 시점에 적용하는 새로운 정렬 방법인 AISP (adaptive importance sampling on pre-logits)를 제안한다. AISP는 확률적 제어 입력을 활용하는 샘플링 기반 모델 예측 제어를 기반으로 하며, 사전 로짓에 가우시안 섭동을 적용하여 섭동의 평균에 대한 예상 보상을 최대화한다. 최적의 평균은 샘플링된 보상으로 중요도 샘플링을 수행하여 얻어진다. AISP는 사용된 샘플 수 대비 보상 측면에서 best-of-n 샘플링보다 우수하며, 다른 보상 기반 테스트 시점 정렬 방법보다 높은 보상을 달성한다.