Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Attribution de crédits basée sur la recherche pour l'apprentissage par renforcement hors ligne basé sur les préférences

Created by
  • Haebom

Auteur

Xiancheng Gao, Yufeng Shi, Wengang Zhou, Houqiang Li

Contour

Cet article présente la pondération des préférences basée sur la recherche (SPW), une nouvelle méthode qui intègre deux types de retours humains – démonstrations d'experts et préférences – pour relever les défis de la conception de fonctions de récompense dans l'apprentissage par renforcement hors ligne. Pour chaque transition au sein d'une trajectoire étiquetée par préférence, SPW identifie la paire état-action la plus similaire à partir des démonstrations d'experts et en déduit directement des pondérations d'importance étape par étape en fonction de leurs scores de similarité. Ces pondérations guident l'apprentissage standard des préférences, permettant une attribution précise des crédits, un défi rencontré par les méthodes existantes. Cette méthode démontre des performances supérieures aux méthodes existantes pour une tâche de manipulation de robots.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour améliorer les performances de l’apprentissage par renforcement hors ligne en intégrant efficacement deux types de rétroaction humaine : la démonstration d’expert et la préférence.
Résoudre le problème d’attribution de crédit que les méthodes existantes ne pouvaient pas résoudre grâce à une pondération basée sur la similarité.
A démontré d’excellentes performances dans les tâches de manipulation de robots.
Limitations:
La performance du SPW peut dépendre de la qualité et de la quantité des données de démonstration des experts.
ÉTant donné que les performances peuvent varier en fonction de la méthode de mesure de similarité, il est important de trouver la méthode de mesure de similarité optimale.
Des recherches supplémentaires sont nécessaires pour déterminer si la méthode proposée est applicable à tous les types de problèmes d’apprentissage par renforcement.
👍