Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DexGraspVLA: Un marco de visión-lenguaje-acción para el agarre diestro general

Created by
  • Haebom

Autor

Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Zhang Chen, Tianrui Guan, Fanlian Zeng, Ka Num Lui, Yuyao Ye, Yitao Liang, Yaodong Yang, Yuanpei Chen

Describir

DexGraspVLA es un marco jerárquico para la prensión diestra general guiada por el lenguaje y más allá. Utiliza un modelo de visión-lenguaje preentrenado como planificador de alto nivel y aprende un controlador de acción de bajo nivel basado en la difusión. La clave para lograr la generalización reside en la transformación iterativa de diversas entradas lingüísticas y visuales en representaciones invariantes del dominio a través del modelo subyacente, donde la mitigación de cambios de dominio aplica eficazmente el aprendizaje por imitación. Este método alcanza tasas de éxito en la prensión diestra superiores al 90 % en miles de escenas desafiantes, desconocidas y desordenadas. El análisis empírico valida el diseño al verificar la consistencia del comportamiento del modelo interno ante cambios en el entorno. Además, DexGraspVLA es el primero en demostrar simultáneamente ejecución rápida a largo plazo y de forma libre, robustez ante objetos adversarios e interferencia humana, y recuperación ante fallos. Las aplicaciones extendidas a la prensión sin prensión demuestran aún más su generalidad.

Takeaways, Limitations

Takeaways:
Combinando un modelo de lenguaje visual previamente entrenado con un controlador de acción basado en difusión para lograr un agarre diestro con alta tasa de éxito en diversos entornos.
Mejorar la eficiencia del aprendizaje por imitación y mejorar el rendimiento de generalización utilizando representaciones invariantes del dominio.
Implementar ejecución rápida a largo plazo de forma libre, robustez contra objetos adversarios e interferencia humana, y recuperación ante fallas simultáneamente.
Presentamos un marco general que puede extenderse a fagos no fagos.
Limitations:
El artículo no menciona específicamente Limitations. Investigaciones futuras podrían requerir una evaluación más rigurosa de la robustez y la capacidad de generalización del algoritmo.
Falta de detalles sobre la aplicación y la evaluación del rendimiento de los sistemas robóticos reales.
Falta de análisis de costos computacionales y rendimiento en tiempo real.
👍