Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

La récompense implicite comme pont : une vision unifiée des connexions SFT et DPO

Created by
  • Haebom

Auteur

Bo Wang, Qinyuan Cheng, Runyu Peng, Rong Bao, Peiji Li, Qipeng Guo, Linyang Li, Zhiyuan Zeng, Yunhua Zhou, Xipeng Qiu

Contour

Cet article aborde le rôle de l'apprentissage d'exemples ou de l'apprentissage des signaux de préférence dans la phase post-apprentissage, une étape clé pour l'application de modèles de langage à grande échelle (LLM) pré-entraînés à des tâches réelles. Nous présentons un cadre théorique unifiant les méthodes d'apprentissage des préférences telles que le réglage fin supervisé (SFT) et l'optimisation directe des préférences (DPO), et démontrons, par des dérivations mathématiques rigoureuses, que le SFT et la DPO opèrent dans le même sous-espace optimal politique-récompense, et que le SFT est un cas particulier d'apprentissage implicite des récompenses. Nous soulignons qu'un Limitations important du SFT conventionnel est que le terme de divergence KL de l'appariement de distribution pendant l'optimisation devient constant pour la politique, ce qui ne contraint pas la mise à jour du modèle. Pour résoudre ce problème, nous proposons une technique de décroissance du taux d'apprentissage, qui permet d'améliorer les performances (jusqu'à 25 % d'amélioration relative et 6 % d'augmentation du taux de gain absolu). De plus, nous dérivons une fonction objective SFT alternative dérivée de diverses fonctions de divergence f qui maintiennent le terme KL pendant l'optimisation, ce qui améliore encore les performances du modèle après DPO, et étendons la relation théorique entre le logit LLM et la fonction Q dans l'apprentissage des préférences au contexte SFT, fournissant une dérivation mathématique et une vérification expérimentale.

Takeaways, Limitations

Takeaways:
Présentation d'un cadre théorique intégré des méthodes SFT et d'apprentissage des préférences
Identification et solution du problème __T52633_____ (problème de divergence KL) de la SFT (réduction du taux d'apprentissage) existante
Amélioration des performances grâce à la dérivation de fonctions objectives SFT alternatives
Extension et validation de la relation entre le logit LLM et la fonction Q au contexte SFT
Améliorations significatives des performances dans les tâches d'instruction (jusqu'à 25 % d'amélioration relative et 6 % d'augmentation du taux de réussite absolu)
Limitations:
D’autres études sont nécessaires pour déterminer la généralité de la méthode proposée et son applicabilité à d’autres types de tâches.
Des recherches supplémentaires sont nécessaires pour déterminer la valeur optimale de la technique de décroissance du taux d’apprentissage.
Une discussion claire est nécessaire sur les limites et le champ d’applicabilité du cadre théorique proposé.
👍