Este artículo trata sobre el ajuste fino del aprendizaje supervisado (SFT) de modelos lingüísticos a gran escala y la replicación del comportamiento (BC) en datos limpios (o filtrados), que se utiliza principalmente para el aprendizaje por imitación de políticas de control. Con base en estudios previos, aclaramos que SFT puede entenderse como la maximización de un límite inferior en el objetivo de aprendizaje por refuerzo (RL) en entornos de recompensa dispersa. En este sentido, proponemos SFT ponderado por importancia (iw-SFT), que es una ligera modificación de SFT y se comporta de forma más cercana al aprendizaje RL. iw-SFT optimiza un límite más estricto en el objetivo RL y puede mejorar el rendimiento sobre SFT en datos limpios. iw-SFT es fácil de implementar y puede generalizarse al aprendizaje con datos de calidad. Como resultado, las variantes de SFT propuestas son competitivas con algoritmos RL más avanzados para el aprendizaje de políticas en modelos lingüísticos a gran escala y tareas de control continuo. Por ejemplo, logramos un rendimiento del 66.7% en el conjunto de datos AIME 2024.