Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GTPO : Optimisation des politiques basée sur la trajectoire dans les grands modèles linguistiques

Created by
  • Haebom

Auteur

Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino

Contour

Cet article analyse deux problèmes clés de l'optimisation de politique relative au groupe (GRPO) : (i) les mises à jour de gradient conflictuelles qui se produisent lorsque les jetons reçoivent des récompenses positives et négatives, et (ii) le problème des versions finales récompensées négativement qui pénalisent les réponses confiantes et orientent les décisions du modèle vers des jetons moins probables, aplatissant la distribution de sortie et entravant l'apprentissage. Pour résoudre ces problèmes, cet article propose une optimisation de politique basée sur la trajectoire relative au groupe (GTPO), qui identifie les jetons conflictuels et amplifie les mises à jour positives tout en ignorant les négatives. De plus, elle empêche l'effondrement de la politique en filtrant les versions finales dont l'entropie dépasse un certain seuil. Contrairement à GRPO, GTPO ne repose pas sur la régularisation par divergence KL, éliminant ainsi le besoin d'un modèle de référence pendant l'apprentissage. Nous démontrons une amélioration des performances et de la stabilité grâce à de multiples expériences sur les benchmarks GSM8K, MATH et AIME 2024.

Takeaways, Limitations_

Takeaways:
Nous clarifions le Limitations de GRPO et proposons GTPO, une nouvelle méthode d'optimisation des politiques qui l'améliore.
GTPO permet un apprentissage stable et une amélioration des performances sans régularisation de la divergence KL.
Vérification expérimentale de la supériorité du GTPO sur les benchmarks GSM8K, MATH et AIME 2024.
Efficacité accrue en permettant l'apprentissage sans modèle de référence.
Limitations:
Une analyse et une optimisation supplémentaires du réglage du seuil d’entropie du GTPO sont nécessaires.
D’autres expériences avec différents types de modèles linguistiques et de repères sont nécessaires.
Une explication plus détaillée de la base théorique du seuil d’entropie proposé est nécessaire.
👍