Cet article réinterprète le clonage comportemental (BC), une méthode traditionnelle d'apprentissage supervisé, dans une perspective d'apprentissage par renforcement (RL), expliquant qu'il maximise une borne inférieure de la fonction objectif de l'RL dans un environnement de récompense clairsemé. Nous démontrons que le réglage fin supervisé conventionnel (SFT) peut être compris comme une méthode permettant de maximiser cette borne inférieure, et proposons qu'une modification du SFT en réglage fin supervisé pondéré par l'importance (iw-SFT) offre une approximation plus précise de la fonction objectif de l'RL. L'iw-SFT peut surpasser le SFT et se généraliser efficacement aux données présentant des scores de qualité. Les résultats expérimentaux démontrent que l'iw-SFT est compétitif par rapport aux algorithmes d'apprentissage par renforcement avancés sur les modèles de langage à grande échelle et les tâches de contrôle continu, atteignant une performance de 66,7 % sur l'ensemble de données AIME 2024.