Bài báo này diễn giải lại phương pháp Nhân bản Hành vi (BC), một phương pháp học có giám sát truyền thống, từ góc nhìn Học Tăng cường (RL), giải thích rằng nó tối đa hóa giới hạn dưới của hàm mục tiêu RL trong môi trường phần thưởng thưa thớt. Chúng tôi chứng minh rằng tinh chỉnh có giám sát (SFT) thông thường có thể được hiểu là một phương pháp để tối đa hóa giới hạn dưới này, và đề xuất rằng việc sửa đổi SFT thành tinh chỉnh có giám sát có trọng số tầm quan trọng (iw-SFT) cung cấp một phép xấp xỉ chính xác hơn của hàm mục tiêu RL. iw-SFT có thể vượt trội hơn SFT và khái quát hóa tốt trên dữ liệu có điểm chất lượng. Kết quả thực nghiệm chứng minh rằng iw-SFT có khả năng cạnh tranh với các thuật toán RL tiên tiến trên các mô hình ngôn ngữ quy mô lớn và các tác vụ điều khiển liên tục, đạt hiệu suất 66,7% trên tập dữ liệu AIME 2024.