Cet article démontre que l'apprentissage par renforcement (RL) basé sur des règles améliore significativement les performances d'inférence des modèles de langage à grande échelle (LLM), mais les mécanismes sous-jacents restent flous. Nous constatons que le réglage fin supervisé à petite échelle (SFT) a un impact significatif sur l'RL, mais est inefficace, et proposons un cadre analytique pour expliquer ce phénomène. Nous comparons l'efficacité du SFT et de l'RL en mesurant l'effet d'échantillonnage et suggérons la possibilité d'améliorer l'efficacité du SFT. Sur la base de cette analyse, nous proposons une technique de « redistillation » qui échantillonne des politiques entraînées par RL afin d'améliorer l'efficacité de la distillation à petite échelle. Sur trois ensembles de données et le modèle Qwen & Llama, nous démontrons que le modèle de redistillation atteint des performances d'RL avec un nombre d'échantillons et de calculs nettement inférieur. Sur l'ensemble de données K & K, le modèle Qwen-2.5-1.5B redistillé surpasse DeepSeek-V3-0324 avec seulement 1 000 échantillons SFT. De plus, nous démontrons que la redistillation peut être utilisée pour équilibrer efficacement plusieurs objectifs dans le RL et expliquons plusieurs phénomènes intéressants dans le RL de style R1, révélant les mécanismes derrière son succès empirique.