Dans cet article, nous présentons Casper, un système d'assistance à la téléopération permettant une collaboration homme-robot efficace et intuitive dans des environnements variés et non structurés. Casper effectue une inférence d'intention en temps réel et une exécution flexible des compétences en exploitant les connaissances de bon sens intégrées dans des modèles de langage visuel (MLV) pré-entraînés. Il intègre un module de perception du monde ouvert pour la compréhension générale d'objets et de scènes nouveaux, un mécanisme d'inférence d'intention basé sur les MVV qui exploite le raisonnement de bon sens pour interpréter des portions de saisie utilisateur, et une bibliothèque de techniques qui étendent le champ d'application des systèmes d'assistance à la téléopération existants pour prendre en charge des tâches de manipulation mobile diverses et à long terme. Grâce à des évaluations empiriques approfondies, incluant des études humaines et l'agrégation de systèmes, nous démontrons que Casper améliore les performances des tâches, réduit la charge cognitive et procure une satisfaction utilisateur supérieure à la téléopération directe et à la téléopération assistée de base.