본 논문은 언어 모델 정렬(또는 강화 학습)에서 효율적인 탐색을 위한 계산 프레임워크를 제시합니다. 선행 연구에서 활성 탐색을 통한 초인적 능력 달성 가능성이 제시되었으나, 계산적으로 효율적인 탐색 알고리즘 설계에 대한 이해는 부족했습니다. 본 연구는 사전 훈련된 생성 모델과의 상호 작용을 통해 학습자가 샘플링 오라클을 이용하는 새로운 프레임워크를 제안합니다. 선형 소프트맥스 모델 매개변수화에 초점을 맞춰, 효율적인 탐색의 계산-통계적 절충에 대한 새로운 결과를 제시합니다. 구체적으로, 사전 훈련된 모델의 적중률(coverage), 추론 시간 탐색, 훈련 시간 개입의 효과, 다회차 탐색의 계산적 이점을 분석합니다. 특히, 새롭게 제안된 SpannerSampling 알고리즘은 사전 훈련된 모델의 적중률이 충분할 때 최적의 데이터 효율성과 계산 효율성을 달성합니다.