Este artículo aborda el desafío de asegurar datos de entrenamiento de alta calidad para el ajuste fino de modelos lingüísticos. Específicamente, estudiamos experimentalmente cómo priorizar datos de diferentes niveles de dificultad (fácil, medio, difícil y aleatorio) bajo restricciones presupuestarias utilizando el ajuste fino de Optimización de Políticas Relativa de Grupo (GRPO) en una variedad de tamaños y tipos de modelos. Utilizando estimaciones de dificultad obtenidas de evaluaciones multimuestra del modelo base, comparamos y analizamos cuatro políticas de selección de subconjuntos seleccionadas del mismo conjunto de datos no etiquetados. Los resultados experimentales muestran que el entrenamiento con los ejemplos más difíciles produce ganancias de rendimiento de hasta un 47%, mientras que los ejemplos fáciles producen las menores ganancias de rendimiento. Esto probablemente se deba al hecho de que los ejemplos difíciles brindan más oportunidades de aprendizaje durante el entrenamiento GRPO. En conclusión, proporcionamos una guía práctica que demuestra que priorizar los ejemplos difíciles en tareas de inferencia con restricciones presupuestarias utilizando GRPO puede mejorar significativamente el rendimiento.