Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Alinear-Luego-Avanzar: Adaptación de los modelos de visión-lenguaje-acción mediante una guía latente unificada

Created by
  • Haebom

Autor

Yang Zhang, Chenwei Wang, Ouyang Lu, Yuan Zhao, Yunfei Ge, Zhenglong Sun, Xiu Li, Chi Zhang, Chenjia Bai, Xuelong Li

Describir

Este artículo presenta el marco Align-Then-StEer (ATE) para abordar los desafíos de aplicar modelos de Visión-Lenguaje-Acción (VLA) pre-entrenados a tareas posteriores utilizando conjuntos de datos grandes y diversos. ATE construye un espacio latente unificado utilizando un autocodificador variacional restringido por divergencia KL inversa para incorporar acciones adaptativas en los modos de la distribución latente de acción pre-entrenada. Luego controla el proceso de generación de un VLA basado en difusión o flujo durante el ajuste fino a través de un mecanismo de guía que desplaza la distribución de salida del modelo hacia el dominio objetivo. Experimentos extensos en implementación cruzada y manipulación entre tareas en entornos de simulación y reales demuestran que, en comparación con el ajuste fino directo de VLA convencionales, el enfoque propuesto mejora la tasa promedio de éxito multitarea hasta en un 9.8% en simulación y un 32% en entornos de implementación cruzada del mundo real.

Takeaways, Limitations

Takeaways:
Proporciona una solución general y liviana que mejora significativamente la aplicabilidad de los modelos VLA a plataformas y tareas robóticas del mundo real.
Los modelos VLA se pueden adaptar a nuevas plataformas y tareas de robots de manera eficiente en el uso de datos.
Mejora significativamente el rendimiento de la implementación cruzada y la manipulación entre tareas tanto en entornos de simulación como del mundo real.
Limitations:
Se requiere mayor investigación para determinar el rendimiento de generalización del marco ATE presentado en este artículo. Podrían ser necesarias más pruebas en diversas tareas y plataformas robóticas.
Se necesitan más investigaciones para determinar si las restricciones que utilizan divergencia KL inversa son el enfoque óptimo o si se puede lograr un mejor rendimiento utilizando otros métodos de restricción.
En aplicaciones del mundo real, puede que no se tengan en cuenta las limitaciones del tamaño de la muestra o los factores ambientales.
👍