Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RSPO : Alignement automatique régularisé de grands modèles de langage

Created by
  • Haebom

Auteur

Xiaohang Tang, Sangwoong Yoon, Seongho Son, Huizhuo Yuan, Quanquan Gu, Ilija Bogunovic

Contour

Cet article souligne l'importance de la régularisation de la politique de référence dans l'alignement auto-jeu, une approche efficace pour affiner les modèles de langage à grande échelle (LLM). Soulignant que la régularisation de la politique de référence n'a pas été suffisamment étudiée dans les méthodes d'alignement auto-jeu existantes, nous proposons un cadre général et modulaire, **Regulated Self-Play Policy Optimization (RSPO),**, pour étudier les effets de diverses stratégies de régularisation. RSPO unifie les méthodes existantes et permet une intégration plug-and-play facile de divers régularisateurs, tout en garantissant la convergence vers l'équilibre de Nash du jeu régularisé correspondant. Les résultats expérimentaux obtenus avec plus de 120 modèles Mistral-7B-Instruct affinés montrent que la régularisation de la divergence KL avant réduit la longueur de réponse, tandis que la divergence KL arrière améliore significativement la probabilité de gain brute. En particulier, la RSPO régularisée par une combinaison linéaire de divergences KL avant et arrière améliore significativement le taux de gain contrôlé par la longueur de 28,5 % (jeu autonome non régulé, SPPO) à 35,4 % sur AlpacaEval-2, et le surpasse systématiquement sur les scores Arena-Hard, MT-Bench, ArmoRM et la diversité des réponses. La RSPO fournit une base solide pour explorer le jeu autonome régularisé dans l'alignement des modèles de langage en combinant simplicité, garanties de convergence et réalisations expérimentales significatives.

Takeaways, Limitations_

Takeaways:
La RSPO étudie systématiquement l’efficacité de diverses stratégies réglementaires dans l’alignement de l’auto-jeu et fournit un cadre général et modulaire pour améliorer les performances en fonction des résultats.
Nous démontrons expérimentalement qu'une combinaison de régularisation de divergence KL avant et arrière peut améliorer les performances par rapport aux méthodes d'alignement auto-ludique existantes.
Il a montré d'excellentes performances dans divers benchmarks tels que AlpacaEval-2, Arena-Hard, MT-Bench et ArmoRM.
Limitations:
ÉTant donné que cette étude est basée sur des résultats expérimentaux pour un LLM spécifique (Mistral-7B-Instruct), la généralisabilité à d'autres LLM nécessite une étude plus approfondie.
La stratégie de régularisation optimale et les paramètres d’hyperparamètres peuvent varier en fonction du modèle et de la tâche.
Des recherches supplémentaires sont nécessaires sur d’autres types de stratégies réglementaires en plus de la divergence KL.
👍