Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage post-achèvement pour les modèles linguistiques

Created by
  • Haebom

Auteur

Xiang Fei, Siqi Wang, Shu Wei, Yuxiang Nie, Wei Shi, Hao Feng, Chao Feng, Can Huang

Contour

Cet article propose l'apprentissage post-achèvement (PCL), un nouveau cadre d'apprentissage qui exploite l'espace séquentiel après la sortie du modèle, afin de surmonter les limites de l'apprentissage des modèles de langage existants, qui se termine au jeton terminal ( ). Le PCL améliore les capacités d'inférence et d'auto-évaluation en continuant à générer des auto-évaluations et des prédictions de récompense même après la sortie du modèle, tout en maintenant une inférence efficace en s'arrêtant au point d'achèvement. Ceci est réalisé grâce à une méthode d'apprentissage par renforcement en boîte blanche, où le modèle évalue les sorties selon des règles de récompense et supervise les scores en les alignant sur la fonction de récompense. Pour optimiser les capacités d'inférence et d'évaluation, nous mettons en œuvre la SFT à double voie et la combinons avec l'apprentissage par renforcement par renforcement (RL) pour obtenir une optimisation hybride multi-objectifs. Les résultats expérimentaux sur divers ensembles de données et modèles démontrent des améliorations de performances constantes par rapport aux méthodes SFT et RL existantes.

Takeaways, Limitations

Takeaways:
Présentation de PCL, un nouveau cadre qui surmonte les limites de l'apprentissage des modèles de langage existants.
Améliorer les capacités de raisonnement et d'auto-évaluation du modèle
Améliorer la qualité de sortie tout en maintenant une inférence efficace
Une méthode d’optimisation hybride multi-objectifs combinant les points forts de SFT et RL est présentée.
Améliorations constantes des performances sur divers ensembles de données et modèles
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation de la méthode proposée.
Les résultats ne sont présentés que pour des ensembles de données et des modèles spécifiques, nécessitant une expérimentation plus large.
Il convient de prendre en compte la complexité et le coût de calcul des méthodes d’apprentissage par renforcement en boîte blanche.
Des recherches supplémentaires sont nécessaires sur la subjectivité de la conception des fonctions de récompense et sur les problèmes d’optimisation.
👍