Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Manejo robótico de electrodomésticos mediante la lectura de manuales de usuario

Created by
  • Haebom

Autor

Jian Zhang, Hanbo Zhang, Anxing Xiao, David Hsu

Describir

Este artículo presenta ApBot, un sistema para mejorar la capacidad de los robots domésticos para operar diversos electrodomésticos. ApBot es un sistema robótico que opera un nuevo electrodoméstico leyendo el manual de usuario. Su tarea consiste en inferir una subpolítica condicional objetivo a partir de la descripción textual no estructurada del manual, aplicarla al dispositivo físico y ejecutarla de forma fiable en múltiples pasos a pesar de la acumulación de errores. Para abordar este reto, ApBot utiliza un modelo de visión-lenguaje (VLM) a gran escala para construir un modelo simbólico estructurado del dispositivo a partir del manual de usuario y aplica visualmente acciones simbólicas a los elementos del panel de control. Finalmente, cierra el ciclo actualizando el modelo con base en la retroalimentación visual. Los resultados experimentales muestran que, en diversos dispositivos simulados y reales, ApBot logra mejoras consistentes y estadísticamente significativas en las tasas de éxito de las tareas, en comparación con los VLM a gran escala de última generación que se utilizan directamente como políticas de control. Estos resultados sugieren que las representaciones internas estructuradas desempeñan un papel importante, en particular, en la operación robótica de electrodomésticos complejos.

Takeaways, Limitations

Takeaways:
Demuestra el potencial de los sistemas robóticos para comprender manuales de usuario y operar electrodomésticos.
Demostramos la eficacia de nuestro enfoque de generación de modelos simbólicos estructurados aprovechando modelos de visión-lenguaje a gran escala.
Presentar la posibilidad de un desempeño estable de la tarea a través del cierre del bucle basado en retroalimentación visual.
Destaca la importancia de la representación interna estructurada en el funcionamiento de electrodomésticos complejos.
Limitations:
Confianza en la precisión de la interpretación del manual del usuario.
Limitaciones del rendimiento de generalización en diferentes tipos de dispositivos y formatos de manuales de usuario.
Capacidad limitada para hacer frente a la imprevisibilidad y los errores del entorno real.
Posible degradación del rendimiento debido a las diferencias entre la simulación y los entornos reales.
👍