Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Alignement des LLM gelés par apprentissage par renforcement : une approche itérative de repondération puis d'optimisation

Created by
  • Haebom

Auteur

Xinnan Zhang, Chenliang Li, Siliang Zeng, Jiaxiang Li, Zhongruo Wang, Kaixiang Lin, Songtao Lu, Alfredo Garcia, Mingyi Hong

Contour

Dans cet article, nous présentons la méthode itérative de repondération puis d'optimisation (IRO), une nouvelle méthode permettant d'adapter les modèles linguistiques à grande échelle (LLM) aux préférences humaines. Contrairement aux méthodes RLHF ou DPO conventionnelles, elle ne modifie pas directement les paramètres du modèle, mais améliore la qualité de sa sortie lors des tests grâce à une fonction de récompense basée sur l'apprentissage par renforcement. L'IRO génère itérativement des candidats de sortie d'un modèle de base, les rééchantillonne à l'aide d'une fonction de valeur et apprend une nouvelle fonction de valeur. Lors des tests, les fonctions de valeur apprises servent à guider la génération d'un modèle de base grâce à un processus d'optimisation par exploration. Cela permet aux utilisateurs d'adapter les modèles à leurs propres jeux de données, même sans avoir accès aux pondérations du modèle.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode permettant d'adapter LLM aux préférences humaines sans accès aux paramètres du modèle est présentée.
Amélioration des performances du modèle au moment du test
Semblable au RFT d'OpenAI, il est possible d'aligner des modèles à l'aide d'ensembles de données utilisateur.
Limitations:
Possibilité de sortie sous-optimale en raison de l'incomplétude de la fonction de valeur
Coûts d'inférence potentiellement élevés en raison des processus d'optimisation basés sur la recherche
Une vérification expérimentale est nécessaire pour déterminer dans quelle mesure les performances de l’IRO sont supérieures à celles du RLHF ou du DPO existants.
👍