Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Villa-X: Mejora del modelado de la acción latente en modelos de visión-lenguaje-acción

Created by
  • Haebom

Autor

Xiaoyu Chen, Hangxing Wei, Pushi Zhang, Chuheng Zhang, Kaixin Wang, Yanjiang Guo, Rushuai Yang, Yucen Wang, Xinquan Xiao, Li Zhao, Jianyu Chen, Jiang Bian

Describir

Basado en el modelo Visual-Lenguaje-Acción (VLA), existe investigación activa sobre el aprendizaje de políticas de manipulación robótica que siguen instrucciones verbales y se generalizan a nuevas situaciones. En este artículo, presentamos villa-X, un novedoso marco que integra acciones latentes (representaciones abstractas de cambios visuales entre dos fotogramas) en el preentrenamiento de VLA. villa-X mejora la integración del aprendizaje de acción latente y el preentrenamiento de VLA, logrando un rendimiento superior en entornos de simulación como SIMPLER y LIBERO, así como en dos entornos robóticos del mundo real, incluyendo pinzas y manipulación manual experta. Esto demuestra la importancia del paradigma ViLLA y sugiere que villa-X servirá como base para futuras investigaciones.

Takeaways, Limitations

Takeaways:
Obtenemos mejoras de rendimiento para el entrenamiento previo de VLA al mejorar el modelado de acción latente.
Ha demostrado un excelente rendimiento en el aprendizaje de políticas de manipulación de robots tanto en entornos de simulación como reales.
Presentamos la utilidad del paradigma ViLLA y su potencial para futuras investigaciones.
Limitations:
Los Limitations específicos no se mencionan explícitamente en el artículo. Los Limitations potenciales incluyen la degradación de la generalización, la dependencia del conjunto de datos y los costos computacionales que pueden ocurrir en aplicaciones del mundo real.
👍