Cet article propose le Transformateur Interactif Multimodal (MM-ITF), un modèle permettant aux robots de prédire des objets cibles à partir de gestes de pointage humains lors d'interactions homme-robot (HRI). Le MM-ITF mappe les gestes de pointage 2D aux emplacements des objets et attribue un score de vraisemblance à chaque emplacement afin d'identifier la cible la plus probable. Des expériences ont été menées avec le robot NICOL dans un environnement de table contrôlé à l'aide de données RVB monoculaires, démontrant des résultats précis de prédiction des objets cibles. Une matrice de confusion de patchs a été introduite pour évaluer les performances du modèle. Le code est disponible sur GitHub.