Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage post-achèvement pour les modèles linguistiques

Created by
  • Haebom

Auteur

Xiang Fei, Siqi Wang, Shu Wei, Yuxiang Nie, Wei Shi, Hao Feng, Chao Feng, Can Huang

Contour

Cet article propose l'apprentissage post-achèvement (PCL), un nouveau cadre d'apprentissage qui exploite l'espace séquentiel après la fin de l'apprentissage du modèle, afin de surmonter les limites de l'apprentissage des modèles de langage existants, qui se termine au jeton terminal (). Le PCL améliore les capacités d'inférence et d'auto-évaluation en générant des auto-évaluations et des prédictions de récompense même après la fin de l'apprentissage du modèle. De plus, il maintient l'efficacité en arrêtant le processus d'inférence à la fin. Grâce à des techniques d'apprentissage par renforcement en boîte blanche, le modèle évalue les résultats selon des règles de récompense et supervise les scores en les alignant sur la fonction de récompense. Cette approche combine l'apprentissage SFT et RL à double voie, optimisant simultanément les capacités d'inférence et d'évaluation, pour obtenir une optimisation hybride multi-objectifs. Les résultats expérimentaux sur divers ensembles de données et modèles démontrent des améliorations de performances constantes par rapport aux méthodes SFT et RL existantes.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre d’apprentissage (PCL) qui surmonte les limites de l’apprentissage des modèles de langage existants et améliore les performances.
Présenter une méthode efficace pour améliorer simultanément les capacités de raisonnement et d’auto-évaluation.
Une fois terminé, nous présentons une technique pour améliorer l’efficacité de l’apprentissage en utilisant l’espace de séquence.
Nous avons observé des améliorations constantes des performances sur divers ensembles de données et modèles.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Une expérimentation approfondie avec différents types de modèles linguistiques et d’ensembles de données est nécessaire.
Complexité de la conception de la fonction de récompense et difficulté d'optimisation.
En raison de la nature de l’apprentissage par renforcement en boîte blanche, un niveau élevé de compréhension du fonctionnement interne du modèle est également requis.
👍