Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage par renforcement hors ligne dans le monde réel à partir des commentaires du modèle de langage visuel

Created by
  • Haebom

Auteur

Sreyas Venkataraman, Yufei Wang, Ziyu Wang, Navin Sriram Ravie, Zackory Erickson, David Held

Contour

Cet article traite de l'apprentissage par renforcement hors ligne (ORL), qui permet l'apprentissage de politiques à partir d'ensembles de données pré-collectés et sous-optimaux, sans interaction en ligne. Cette approche est particulièrement adaptée aux robots réels ou aux scénarios critiques pour la sécurité, où la collecte de données en ligne ou les démonstrations d'experts sont lentes, coûteuses et dangereuses. La plupart des études d'apprentissage par renforcement hors ligne existantes supposent que l'ensemble de données est déjà étiqueté avec des récompenses pour les tâches, mais cela nécessite des efforts considérables, en particulier dans les scénarios réels où la vérité terrain est difficile à déterminer. Dans cet article, nous proposons un nouveau système basé sur RL-VLM-F, qui génère automatiquement des étiquettes de récompense pour les ensembles de données hors ligne, en utilisant le retour d'information sur les préférences d'un modèle de langage visuel et les descriptions textuelles des tâches. Cette méthode entraîne des politiques par RL hors ligne avec l'ensemble de données de récompense étiqueté. Nous démontrons son applicabilité à la tâche complexe d'habillage d'un robot réel. Nous apprenons d'abord les fonctions de récompense à partir d'un ensemble de données hors ligne sous-optimal à l'aide d'un modèle de langage visuel, puis utilisons les récompenses apprises pour développer une politique d'habillage efficace par apprentissage Q implicite. Il est également performant dans les tâches de simulation impliquant la manipulation d'objets rigides et déformables, surpassant largement les performances de référence telles que le clonage de comportement et l'apprentissage par renforcement inverse (RL). En résumé, nous proposons un nouveau système permettant l'étiquetage automatique des récompenses et l'apprentissage de politiques à partir d'ensembles de données hors ligne non étiquetés et sous-optimaux.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode permettant de générer automatiquement des étiquettes de récompense pour des ensembles de données hors ligne à l'aide de modèles de langage visuel, augmentant ainsi l'applicabilité réelle de l'apprentissage par renforcement hors ligne.
Il surpasse les méthodes existantes dans les tâches réelles d'habillage de robots et dans les tâches de simulation.
Nous démontrons l’efficacité de l’apprentissage par renforcement hors ligne pour des tâches complexes.
Limitations:
Cela dépend des performances du modèle vision-langage, et une dégradation des performances du modèle peut affecter les performances de l'ensemble du système.
Une validation supplémentaire de la capacité de généralisation du modèle vision-langage utilisé est nécessaire.
Des recherches sont nécessaires pour améliorer davantage la généralisabilité de l’apprentissage de la fonction de récompense pour des tâches spécifiques.
Les performances peuvent varier en fonction de la variété et de la complexité des ensembles de données du monde réel.
👍