Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Optimisation des politiques sans valeur via le partitionnement des récompenses

Created by
  • Haebom

Auteur

Bilal Faye, Hanane Azzag, Mustapha Lebbah

Contour

Dans cet article, nous présentons l'optimisation de la partition des récompenses (RPO), une nouvelle méthode d'optimisation des politiques utilisant directement les récompenses sans modéliser la fonction de valeur dans l'apprentissage par renforcement (RL) à trajectoire unique. Alors que l'optimisation directe des récompenses (DRO) conventionnelle souffre d'une forte variance hors politique en raison de l'approximation de la fonction de valeur, du couplage entre la politique et l'apprentissage de la valeur, et de l'absence de supervision absolue de la politique, la RPO répond à ces limitations en régularisant les récompenses observées à l'aide d'une méthode de partitionnement directement estimée à partir des données. Elle fournit un objectif d'apprentissage supervisé simple pour la politique sans modèles auxiliaires et surpasse les méthodes existantes pour la modélisation du langage de rétroaction scalaire utilisant le modèle Flan-T5.

Takeaways, Limitations

Takeaways:
Nous démontrons qu’une optimisation efficace des politiques est possible dans le RL à trajectoire unique sans modéliser la fonction de valeur.
Il aborde la forte variance hors politique, le couplage entre la politique et l'apprentissage de la valeur, et le manque absolu de supervision des méthodes existantes telles que DRO.
Il fournit une optimisation des politiques simple, facile à mettre en œuvre et robuste.
Nous obtenons des performances supérieures par rapport aux méthodes existantes sur les tâches de modélisation de langage basées sur la rétroaction scalaire.
Limitations:
Actuellement, il n'a été appliqué qu'à la tâche de modélisation du langage de rétroaction scalaire, et ses performances de généralisation à d'autres tâches ou formats de données nécessitent des recherches supplémentaires.
Les performances de la méthode de répartition des récompenses peuvent être affectées par les caractéristiques des données.
Une analyse plus approfondie des fondements théoriques de l’RPO pourrait être nécessaire.
👍