Este artículo reinterpreta la Clonación de Comportamiento (BC), un método tradicional de aprendizaje supervisado, desde la perspectiva del Aprendizaje por Refuerzo (RL). Explica que maximiza un límite inferior de la función objetivo de RL en un entorno de recompensa dispersa. Demostramos que el ajuste fino supervisado (SFT) convencional puede entenderse como un método para maximizar este límite inferior y proponemos que una modificación de SFT en un ajuste fino supervisado ponderado por importancia (iw-SFT) proporciona una aproximación más precisa de la función objetivo de RL. iw-SFT puede superar a SFT y generalizarse adecuadamente a datos con puntuaciones de calidad. Los resultados experimentales demuestran que iw-SFT es competitivo con algoritmos avanzados de RL en modelos de lenguaje a gran escala y tareas de control continuo, alcanzando un rendimiento del 66,7 % en el conjunto de datos AIME 2024.