[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mirar, enfocar, actuar: aprendizaje robótico eficiente y robusto mediante la mirada humana y los transformadores de visión foveada

작성자
  • Haebom

Autor

Ian Chuang, Andrew Lee, Dechen Gao, Jinyu Zou, Iman Soltani

Describir

Este artículo explora cómo aplicar el procesamiento de visión activa humana a sistemas robóticos para mejorar la eficiencia y el rendimiento. Presentamos un marco para construir un sistema robótico de visión activa que imita el seguimiento de la mirada y los movimientos de la cabeza humanos, y que recopila simultáneamente datos de seguimiento de la mirada y demostraciones del robot realizadas por operadores humanos. Para integrar la información de la mirada en el Transformador de Visión (ViT), utilizamos una técnica de tokenización de parches basada en visión activa que reduce significativamente el número de tokens, manteniendo al mismo tiempo la fidelidad visual en la región de interés. Exploramos dos enfoques para la imitación y predicción de la mirada a partir de datos humanos: predicción de la mirada seguida de visión activa, y predicción integral de la mirada y las acciones. Demostramos experimentalmente que el método propuesto reduce significativamente la sobrecarga computacional y mejora el rendimiento de tareas de alta precisión y la robustez frente a perturbaciones desconocidas.

Takeaways, Limitations

Takeaways:
Demostramos que la aplicación del procesamiento visual activo similar al humano a los sistemas de visión robótica puede mejorar la eficiencia y el rendimiento computacionales.
La técnica de tokenización de parches basada en visión activa propuesta puede reducir significativamente la carga computacional de ViT mientras mantiene la fidelidad visual para la región de interés sin degradación del rendimiento.
Los modelos de predicción y mímica de la mirada que aprovechan los datos de la mirada humana mejoran el rendimiento de tareas de alta precisión y la robustez frente a perturbaciones desconocidas.
Se sugiere que el procesamiento visual centrado en el ser humano puede proporcionar sesgos inductivos útiles para los sistemas de visión robótica.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto (se debe verificar su aplicabilidad a varios entornos y tareas).
Dado que la investigación actual se ha llevado a cabo principalmente en un entorno de simulación, se necesita investigación adicional sobre los problemas que pueden surgir cuando se aplica a sistemas de robot reales.
La dificultad y el coste de recopilar datos de la mirada humana.
Dado que este modelo está optimizado para tareas y entornos específicos, se necesita más investigación sobre su aplicabilidad a otras tareas o entornos.
👍