본 논문은 언어 모델 정렬(강화 학습)에서 효율적인 탐색을 위한 새로운 계산 프레임워크를 제시합니다. 사전 훈련된 생성 모델과 상호 작용하는 학습자를 샘플링 오라클을 통해 모델링하고, 선형 softmax 모델 매개변수화에 초점을 맞춰 효율적인 탐색의 계산-통계적 트레이드오프를 분석합니다. 특히, 사전 훈련된 모델의 'coverage'(최적 반응을 포함하는 정도)가 계산 시간에 미치는 영향, 최적의 데이터 효율성을 달성하는 새로운 알고리즘 SpannerSampling의 제시, 훈련 시간 개입의 한계, 그리고 다회차 탐색의 계산적 이점을 밝힙니다. SpannerSampling은 사전 훈련된 모델의 추론 시간 계산을 활용하여 탐색을 위한 효과적인 검색 공간을 줄입니다.