Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CAREL : Apprentissage par renforcement guidé par l'instruction avec objectifs auxiliaires intermodaux

Created by
  • Haebom

Auteur

Armin Saghafian, Amirmohammad Izadi, Negin Hashemi Dijujin, Mahdieh Soleymani Baghshah

Contour

CAREL (Cross-modal Auxiliary REinforcement Learning) est un nouveau cadre d'apprentissage par renforcement multimodal (CAREL) pour les problèmes d'apprentissage par renforcement axés sur la réalisation d'objectifs, guidés par le langage et basés sur des instructions dans l'environnement. Il utilise une fonction de perte auxiliaire inspirée de la récupération de texte vidéo et du suivi des instructions, une méthode innovante de suivi automatique de la progression dans l'environnement. Il vise à améliorer la généralisation du modèle à diverses tâches et environnements, permettant à l'agent de comprendre plusieurs parties des instructions dans le contexte environnemental afin de mener à bien la tâche dans son intégralité dans des scénarios d'atteinte d'objectifs. Les résultats expérimentaux démontrent une excellente efficacité d'échantillonnage et une excellente performance de généralisation systématique dans les problèmes d'apprentissage par renforcement multimodal.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre, CAREL, démontrant une efficacité d'échantillonnage et des performances de généralisation améliorées dans les problèmes d'apprentissage par renforcement multimodal.
Améliorer l'apprentissage basé sur l'instruction dans l'environnement en exploitant les fonctions de perte auxiliaires et les techniques de suivi des instructions dans le domaine de la récupération de texte vidéo.
Capacité de généralisation améliorée sur une variété de tâches et d’environnements.
Limitations:
L’article manque de références spécifiques à Limitations ou aux orientations de recherche futures.
Une analyse plus approfondie des performances et de la stabilité de la base de code présentée est nécessaire.
D’autres expériences sont nécessaires pour explorer l’étendue des performances de généralisation dans différents environnements et tâches.
👍