CAREL (Cross-modal Auxiliary REinforcement Learning) est un nouveau cadre d'apprentissage par renforcement multimodal (CAREL) pour les problèmes d'apprentissage par renforcement axés sur la réalisation d'objectifs, guidés par le langage et basés sur des instructions dans l'environnement. Il utilise une fonction de perte auxiliaire inspirée de la récupération de texte vidéo et du suivi des instructions, une méthode innovante de suivi automatique de la progression dans l'environnement. Il vise à améliorer la généralisation du modèle à diverses tâches et environnements, permettant à l'agent de comprendre plusieurs parties des instructions dans le contexte environnemental afin de mener à bien la tâche dans son intégralité dans des scénarios d'atteinte d'objectifs. Les résultats expérimentaux démontrent une excellente efficacité d'échantillonnage et une excellente performance de généralisation systématique dans les problèmes d'apprentissage par renforcement multimodal.