Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SENSEI : Exploration sémantique guidée par des modèles fondamentaux pour apprendre des modèles mondiaux polyvalents

Created by
  • Haebom

Auteur

Cansu Sancaktar, Christian Gumbsch, Andrii Zadaianchuk, Pavel Kolev, Georg Martius

Contour

Dans cet article, nous proposons un cadre d'exploration sémantiquement solide (SENSEI) comme stratégie d'exploration efficace en apprentissage par renforcement. Pour surmonter les limites des méthodes de motivation intrinsèque existantes, qui s'arrêtent aux interactions de bas niveau, nous utilisons le signal de récompense « intéressant » obtenu par l'annotation du modèle de langage visuel (MLV). Grâce à l'apprentissage par renforcement basé sur un modèle, SENSEI apprend une stratégie d'exploration qui maximise simultanément la récompense sémantique et l'incertitude. Nous démontrons qu'il découvre diverses actions significatives à partir d'observations d'images et d'actions de bas niveau dans des simulations de robots et de jeux vidéo. Cela fournit un outil général pour l'apprentissage à partir du MLV, qui devient plus performant.

Takeaways, Limitations

Takeaways:
Une nouvelle approche est présentée pour surmonter les limites (interaction de bas niveau) des méthodes de motivation intrinsèque existantes.
Présentation d'une méthode efficace pour induire des comportements significatifs de haut niveau en tirant parti du VLM.
Combiner l'apprentissage par renforcement basé sur un modèle et le VLM pour apprendre avec succès diverses actions significatives dans un environnement simulé.
Proposer des directions importantes pour la recherche sur l'apprentissage par renforcement en utilisant des VLM de plus en plus puissants.
Limitations:
Forte dépendance aux annotations VLM. Les performances de SENSEI peuvent être fortement affectées par les performances de VLM.
Actuellement, il n’a été évalué que dans un environnement de simulation, des recherches supplémentaires sont donc nécessaires sur sa transférabilité aux environnements robotiques réels.
Il est nécessaire d’établir des critères clairs pour définir et évaluer les comportements de haut niveau.
👍