Dans cet article, nous proposons un nouveau modèle d'apprentissage par imitation, l'apprentissage par imitation causale confondue (C2L), qui utilise des variables instrumentales (VI) pour résoudre le problème des effets confondants des variables non mesurées (c'est-à-dire des variables potentiellement confondantes) sur les états et les actions dans l'apprentissage par imitation. Le modèle C2L prend en compte les variables confondantes qui affectent les actions sur plusieurs pas de temps et présente un cadre d'apprentissage par imitation en deux étapes pour identifier les VI valides et optimiser les politiques. Dans la première étape, nous présentons un critère de validation pour identifier les VI valides à partir de pseudovariables définies, et dans la seconde étape, nous proposons deux méthodes d'apprentissage des politiques, l'apprentissage sur simulateur et l'apprentissage hors ligne, utilisant les VI identifiées. Nous vérifions l'efficacité de l'identification des VI valides et de l'apprentissage des politiques par des expériences approfondies.