Este artículo demuestra que el aprendizaje por refuerzo basado en reglas (AR) mejora significativamente el rendimiento de inferencia de los modelos lingüísticos a gran escala (MLG), pero los mecanismos subyacentes siguen sin estar claros. Observamos que el ajuste fino supervisado (SFT) a pequeña escala tiene un impacto significativo en el AR, pero es ineficiente, y proponemos un marco analítico para explicarlo. Comparamos la eficiencia de SFT y AR midiendo el efecto del muestreo y sugerimos la posibilidad de mejorar la eficiencia de SFT. Con base en este análisis, proponemos una técnica de "redestilación" que toma muestras de políticas entrenadas en AR para mejorar la efectividad de la destilación a pequeña escala. En tres conjuntos de datos y el modelo Qwen & Llama, demostramos que el modelo de redestilación logra un rendimiento de AR con significativamente menos muestras y cálculos. En el conjunto de datos K & K, el modelo Qwen-2.5-1.5B redestilado supera a DeepSeek-V3-0324 con solo 1K muestras de SFT. Además, demostramos que la redestilación se puede utilizar para equilibrar eficientemente múltiples objetivos en RL y explicamos varios fenómenos interesantes en RL estilo R1, revelando los mecanismos detrás de su éxito empírico.