CAREL (Aprendizaje de Reforzamiento Auxiliar Intermodal) es un novedoso marco para problemas de aprendizaje de refuerzo para la consecución de objetivos guiados por el lenguaje, basado en instrucciones del entorno. Utiliza una función de pérdida auxiliar inspirada en la recuperación de videotexto y el seguimiento de instrucciones, un método novedoso para el seguimiento automático del progreso dentro del entorno. Se centra en mejorar la generalización del modelo en diversas tareas y entornos, permitiendo al agente comprender múltiples partes de las instrucciones dentro del contexto ambiental para completar con éxito toda la tarea en escenarios de consecución de objetivos. Los resultados experimentales demuestran una excelente eficiencia muestral y un rendimiento de generalización sistemática en problemas de aprendizaje de refuerzo multimodal.