Cet article aborde le rôle de l'apprentissage d'exemples ou de l'apprentissage des signaux de préférence dans la phase post-apprentissage, une étape clé pour l'application de modèles de langage à grande échelle (LLM) pré-entraînés à des tâches réelles. Nous présentons un cadre théorique unifiant les méthodes d'apprentissage des préférences telles que le réglage fin supervisé (SFT) et l'optimisation directe des préférences (DPO), et démontrons, par des dérivations mathématiques rigoureuses, que le SFT et la DPO opèrent dans le même sous-espace optimal politique-récompense, et que le SFT est un cas particulier d'apprentissage implicite des récompenses. Nous soulignons qu'un Limitations important du SFT conventionnel est que le terme de divergence KL de l'appariement de distribution pendant l'optimisation devient constant pour la politique, ce qui ne contraint pas la mise à jour du modèle. Pour résoudre ce problème, nous proposons une technique de décroissance du taux d'apprentissage, qui permet d'améliorer les performances (jusqu'à 25 % d'amélioration relative et 6 % d'augmentation du taux de gain absolu). De plus, nous dérivons une fonction objective SFT alternative dérivée de diverses fonctions de divergence f qui maintiennent le terme KL pendant l'optimisation, ce qui améliore encore les performances du modèle après DPO, et étendons la relation théorique entre le logit LLM et la fonction Q dans l'apprentissage des préférences au contexte SFT, fournissant une dérivation mathématique et une vérification expérimentale.