Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Estimación de objetivos guiada por apuntamiento mediante atención basada en transformadores

Created by
  • Haebom

Autor

Luca Müller, Hassan Ali, Philipp Allgeuer, Luk a\v{s} Gajdo\v{s}ech, Stefan Wermter

Describir

Este artículo propone el Transformador Interactivo Multimodal (MM-ITF), un modelo que permite a los robots predecir objetivos basándose en gestos de apuntamiento humanos en la interacción humano-robot (HRI). MM-ITF mapea los gestos de apuntamiento 2D a la ubicación de los objetos y asigna una puntuación de probabilidad a cada ubicación para identificar el objetivo más probable. Se realizaron experimentos con el robot NICOL en un entorno de sobremesa controlado utilizando datos RGB monoculares, demostrando resultados precisos en la predicción de objetivos. Se introdujo una matriz de confusión de parches para evaluar el rendimiento del modelo. El código está disponible en GitHub.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo modelo (MM-ITF) que permite a los robots predecir con precisión objetos objetivo a través de gestos de instrucciones humanas naturales.
La colaboración eficiente entre humanos y robots se permite utilizando únicamente datos RGB monoculares.
Proponemos una nueva métrica de evaluación que permite un análisis más detallado del desempeño predictivo del modelo a través de la matriz de confusión de parches.
Se han mejorado la reproducibilidad y la extensibilidad mediante código abierto.
Limitations:
Debido a que los experimentos se llevaron a cabo únicamente en un entorno de mesa controlado, se requiere una verificación adicional para generalizar los resultados a aplicaciones del mundo real.
La robustez ante diversos tipos de gestos instruccionales y entornos complejos requiere más investigación.
Es posible que se necesite una explicación adicional con respecto a la interpretación y el uso de la matriz de confusión de parches.
👍