Cet article aborde le problème de l'alignement du comportement des robots sur les préférences humaines pour le déploiement d'agents d'IA implémentés dans des environnements centrés sur l'humain. L'apprentissage interactif par imitation, dans lequel un expert humain observe l'exécution des politiques et fournit un retour d'information sur les interventions, est présenté comme une solution prometteuse. Les méthodes existantes présentent des limites quant à l'utilisation efficace des politiques antérieures pour faciliter l'apprentissage. Dans cet article, nous proposons l'apprentissage par renforcement inverse à Q résiduel à entropie maximale (MEReQ) pour un alignement efficace des politiques par rapport à l'échantillon, à partir d'une intervention humaine. Au lieu d'inférer l'ensemble des caractéristiques comportementales humaines, MEReQ infère une fonction de récompense résiduelle qui capture les différences entre les fonctions de récompense de base de l'expert humain et la politique antérieure. À l'aide de cette fonction de récompense résiduelle, la politique est ensuite alignée sur les préférences humaines grâce à l'apprentissage Q résiduel (RQL). Des évaluations approfondies sur des simulations et des tâches réelles démontrent que MEReQ permet un alignement efficace des politiques par rapport à l'échantillon, à partir d'une intervention humaine.