Este artículo propone el Transformador Interactivo Multimodal (MM-ITF), un modelo que permite a los robots predecir objetivos basándose en gestos de apuntamiento humanos en la interacción humano-robot (HRI). MM-ITF mapea los gestos de apuntamiento 2D a la ubicación de los objetos y asigna una puntuación de probabilidad a cada ubicación para identificar el objetivo más probable. Se realizaron experimentos con el robot NICOL en un entorno de sobremesa controlado utilizando datos RGB monoculares, demostrando resultados precisos en la predicción de objetivos. Se introdujo una matriz de confusión de parches para evaluar el rendimiento del modelo. El código está disponible en GitHub.