Cet article présente une nouvelle méthode pour résoudre le problème du coût de calcul élevé qui se pose lors de l'amélioration de la capacité d'inférence des modèles linguistiques à grande échelle (LLM) par apprentissage par renforcement (RL). Les méthodes d'optimisation RL existantes souffrent d'un coût de calcul élevé en raison de la nécessité de nombreuses évaluations répétées des invites et de mises à jour des politiques pour atteindre des performances optimales. Dans cet article, nous proposons la sélection prédictive des invites de modèle (MoPPS), un cadre bayésien de prédiction du risque qui estime la difficulté des invites en ligne sans interactions LLM coûteuses. MoPPS modélise la probabilité de succès de chaque invite comme une variable latente, effectue une inférence bayésienne en continu et permet une sélection adaptative et efficace des invites par échantillonnage a posteriori sur une machine à bandit multi-bras configurée. Grâce à des expériences approfondies sur des tâches de mathématiques, de planification et de géométrie basées sur la vision, nous montrons que MoPPS prédit de manière fiable la difficulté des invites et réduit considérablement le déploiement des LLM, accélérant ainsi l'apprentissage.