Dans cet article, nous proposons un cadre d'exploration sémantiquement solide (SENSEI) comme stratégie d'exploration efficace en apprentissage par renforcement. Pour surmonter les limites des méthodes de motivation intrinsèque existantes, qui s'arrêtent aux interactions de bas niveau, nous utilisons le signal de récompense « intéressant » obtenu par l'annotation du modèle de langage visuel (MLV). Grâce à l'apprentissage par renforcement basé sur un modèle, SENSEI apprend une stratégie d'exploration qui maximise simultanément la récompense sémantique et l'incertitude. Nous démontrons qu'il découvre diverses actions significatives à partir d'observations d'images et d'actions de bas niveau dans des simulations de robots et de jeux vidéo. Cela fournit un outil général pour l'apprentissage à partir du MLV, qui devient plus performant.