Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GTPO : Optimisation des politiques basée sur la trajectoire dans les grands modèles linguistiques

Created by
  • Haebom

Auteur

Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino

Contour

Cet article identifie et analyse deux problèmes majeurs de l'optimisation traditionnelle des politiques relatives au groupe (GRPO) : (i) l'apparition fréquente de jetons dans les complétions avec des récompenses positives et négatives, ce qui entraîne des mises à jour de gradient conflictuelles et une diminution des probabilités de sortie ; et (ii) les complétions négativement récompensées pénalisent les réponses confiantes et déplacent les décisions du modèle vers des jetons improbables, aplatissant la distribution de sortie et entravant l'apprentissage. Pour résoudre ces problèmes, cet article propose une optimisation des politiques basée sur la trajectoire relative au groupe (GTPO). GTPO identifie les jetons conflictuels qui coexistent dans les complétions avec des récompenses conflictuelles et les protège en amplifiant les mises à jour positives tout en ignorant les négatives. De plus, pour éviter l'effondrement des politiques, GTPO filtre les complétions dont l'entropie dépasse un seuil prouvable. Contrairement à GRPO, GTPO ne s'appuie pas sur la régularisation par divergence KL ; il ne nécessite donc pas de modèle de référence pendant l'apprentissage. De multiples expériences sur les benchmarks GSM8K, MATH et AIME 2024 démontrent que GTPO offre une plus grande stabilité d'apprentissage et de meilleures performances.

Takeaways, Limitations

Takeaways:
Nous clarifions le Limitations de GRPO et proposons GTPO, une nouvelle méthode d'optimisation des politiques qui l'améliore.
GTPO simplifie le processus de formation et augmente l'efficacité en éliminant le besoin de régularisation de la divergence KL.
Vérification expérimentale des performances supérieures de GTPO sur les benchmarks GSM8K, MATH et AIME 2024.
Fournit une stratégie de formation et d'alignement de modèles linguistiques à grande échelle plus stable et plus efficace.
Limitations:
Une analyse et une optimisation supplémentaires des paramètres du seuil d'entropie du GTPO peuvent être nécessaires.
Des recherches supplémentaires sont nécessaires pour déterminer la généralité de la méthode proposée et son applicabilité à diverses architectures de modèles.
Les résultats expérimentaux sont limités à un point de référence spécifique et les performances sur d’autres tâches ou ensembles de données nécessitent une validation supplémentaire.
👍