Cet article traite du réglage fin par apprentissage supervisé (SFT) de modèles de langage à grande échelle et de la réplication comportementale (BC) sur données propres (ou filtrées), principalement utilisés pour l'apprentissage par imitation de politiques de contrôle. Sur la base d'études antérieures, nous clarifions que le SFT peut être compris comme maximisant une borne inférieure sur l'objectif d'apprentissage par renforcement (RL) dans des contextes de récompenses clairsemées. À cet égard, nous proposons un SFT pondéré par l'importance (iw-SFT), une légère modification du SFT qui se rapproche davantage de l'apprentissage par renforcement. L'iw-SFT optimise une borne plus étroite sur l'objectif d'apprentissage par renforcement et peut améliorer les performances par rapport au SFT sur données propres. L'iw-SFT est facile à mettre en œuvre et peut être généralisé à l'apprentissage avec des données notées par la qualité. Par conséquent, les variantes du SFT proposées sont compétitives par rapport aux algorithmes d'apprentissage par renforcement plus avancés pour l'apprentissage de politiques dans les modèles de langage à grande échelle et les tâches de contrôle continu. Par exemple, nous obtenons une performance de 66,7 % sur le jeu de données AIME 2024.