Cet article aborde le défi de la sécurisation de données d'entraînement de haute qualité pour l'affinage des modèles linguistiques. Plus précisément, nous étudions expérimentalement comment prioriser des données de différents niveaux de difficulté (facile, moyen, difficile et aléatoire) sous contraintes budgétaires, en utilisant l'optimisation par politique relative de groupe (GRPO) sur des tailles et types de modèles variés. À l'aide d'estimations de difficulté obtenues à partir d'évaluations multi-échantillons du modèle de base, nous comparons et analysons quatre politiques de sélection de sous-ensembles sélectionnées dans le même pool de données non étiquetées. Les résultats expérimentaux montrent que l'apprentissage avec les exemples les plus difficiles génère jusqu'à 47 %, tandis que les exemples faciles génèrent les gains de performance les plus faibles. Cela est probablement dû au fait que les exemples difficiles offrent davantage d'opportunités d'apprentissage lors de l'apprentissage GRPO. En conclusion, nous fournissons des conseils pratiques sur la façon dont la priorisation des exemples difficiles dans les tâches d'inférence à budget limité à l'aide de GRPO peut améliorer significativement les performances.