Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Estimation de cible guidée par pointage via l'attention basée sur un transformateur

Created by
  • Haebom

Auteur

Luca Muller, Hassan Ali, Philipp Allgeuer, Luk a\v{s} Gajdo\v{s}ech, Stefan Wermter

Contour

Cet article propose le Transformateur Interactif Multimodal (MM-ITF), un modèle permettant aux robots de prédire des objets cibles à partir de gestes de pointage humains lors d'interactions homme-robot (HRI). Le MM-ITF mappe les gestes de pointage 2D aux emplacements des objets et attribue un score de vraisemblance à chaque emplacement afin d'identifier la cible la plus probable. Des expériences ont été menées avec le robot NICOL dans un environnement de table contrôlé à l'aide de données RVB monoculaires, démontrant des résultats précis de prédiction des objets cibles. Une matrice de confusion de patchs a été introduite pour évaluer les performances du modèle. Le code est disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau modèle (MM-ITF) qui permet aux robots de prédire avec précision les objets cibles grâce à des gestes d'instruction humains naturels.
Une collaboration efficace entre l'homme et le robot est possible en utilisant uniquement des données RVB monoculaires.
Nous proposons une nouvelle métrique d'évaluation qui permet une analyse plus détaillée des performances prédictives du modèle via la matrice de confusion des patchs.
La reproductibilité et l’extensibilité ont été améliorées grâce au code ouvert.
Limitations:
ÉTant donné que les expériences ont été menées uniquement dans un environnement de table contrôlé, des vérifications supplémentaires sont nécessaires pour généraliser les résultats aux applications du monde réel.
La robustesse à divers types de gestes pédagogiques et d’environnements complexes nécessite des recherches supplémentaires.
Des explications supplémentaires peuvent être nécessaires concernant l’interprétation et l’utilisation de la matrice de confusion des patchs.
👍