본 논문은 강화학습(RL)을 사용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 과정에서 발생하는 높은 계산 비용 문제를 해결하기 위한 새로운 방법인 Model Predictive Prompt Selection (MoPPS)을 제안합니다. 기존의 RL fine-tuning 방법들은 최적의 성능을 달성하기 위해 많은 반복과 빈번한 LLM 상호작용으로 인해 높은 계산 비용이 발생합니다. MoPPS는 LLM 상호작용 없이도 프롬프트의 난이도를 예측하는 베이지안 위험 예측 프레임워크로, 각 프롬프트의 성공률을 잠재 변수로 모델링하고 스트리밍 베이지안 추론과 후방 샘플링을 사용하여 효율적인 프롬프트 선택을 수행합니다. 수학, 계획, 시각 기반 기하학 작업에 대한 광범위한 실험을 통해 MoPPS가 프롬프트의 난이도를 정확하게 예측하고 LLM 롤아웃을 크게 줄여 훈련 속도를 높이는 것을 보여줍니다.