Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Vers une vision unifiée du modèle de langage à grande échelle après la formation

Created by
  • Haebom

Auteur

Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou

Contour

Cet article aborde deux principales sources de données d'entraînement pour les modèles de langage moderne post-apprentissage : les données en ligne (déploiements de génération de modèles) et les données hors ligne (démonstrations humaines ou autres). Des approches telles que l'apprentissage par renforcement (RL) et le réglage fin supervisé (SFT) utilisent chacune ces deux types de données. Cet article démontre que ces approches ne sont pas contradictoires, mais plutôt des exemples d'un même processus d'optimisation. Nous dérivons un estimateur de gradient de politique unifié et présentons le calcul d'une approche post-apprentissage complète comme le gradient d'un objectif commun sous diverses hypothèses de distribution de données et compromis biais-variance. Cet estimateur de gradient se compose de quatre parties interchangeables : un masque de stabilisation, un dénominateur de politique de référence, un estimateur de bénéfice et un gradient de vraisemblance. Sur la base de résultats théoriques, cet article propose le post-apprentissage hybride (HPT), un algorithme qui sélectionne dynamiquement les signaux d'entraînement. L'HPT est conçu pour permettre une utilisation efficace des démonstrations et une exploration robuste sans sacrifier les modèles d'inférence appris. Cet article présente des études expérimentales et d'ablation approfondies visant à valider le cadre théorique unifié et l'efficacité de la méthode HPT. Sur la base de six tests d'inférence mathématique et de deux valeurs aberrantes distributionnelles, la méthode HPT surpasse systématiquement les modèles de base robustes, quelle que soit leur taille et leur classe.

Takeaways, Limitations

Takeaways:
Nous améliorons la compréhension théorique en présentant un cadre d’optimisation unique qui intègre des approches post-formation (par exemple, RL, SFT).
Nous proposons un algorithme hybride post-formation (HPT) efficace qui permet simultanément une utilisation de démonstration et une exploration stable.
Nous avons vérifié expérimentalement les performances supérieures du HPT sur divers benchmarks.
Il a montré des améliorations de performances constantes, quelle que soit la taille et la série du modèle.
Limitations:
Des recherches supplémentaires pourraient être nécessaires pour déterminer les paramètres optimaux de l’algorithme HPT proposé.
Une validation supplémentaire des performances de généralisation sur différents types de modèles et de tâches linguistiques est nécessaire.
Une analyse détaillée du coût et de l’efficacité du calcul du HPT peut être nécessaire.
👍