Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

VOTACIÓN: Optimización de la visión, el lenguaje y la acción con votación por conjunto de trayectorias

Created by
  • Haebom

Autor

Juyi Lin, Amir Taherin, Arash Akbari, Arman Akbari, Lei Lu, Guangyu Chen, Taskin Padir, Xiaomeng Yang, Weiwei Chen, Yiqian Li, Xue Lin, David Kaeli, Pu Zhao, Yanzhi Wang

Describir

Este artículo presenta un novedoso marco de entrenamiento y una técnica de optimización de inferencia que abordan dos desventajas de los modelos de Visión Verbal Action (VLA) a gran escala: alta latencia de inferencia y mayores costos de entrenamiento debido a la gran cantidad de tokens generados, y bajo rendimiento debido a la falta de utilización de las acciones generadas. El marco propuesto reduce eficazmente la latencia de inferencia y los costos de entrenamiento al ajustar el modelo VLA para generar una cantidad mucho menor de tokens de acción con alto paralelismo. Además, una técnica de optimización de inferencia que utiliza una novedosa estrategia de conjunto basada en votación combina predicciones de acciones actuales y previas para mejorar la utilización de las acciones generadas y el rendimiento general. Los resultados experimentales demuestran que el marco propuesto supera a los modelos VLA de vanguardia, demostrando tasas de éxito significativamente más altas y una velocidad de inferencia 39 veces más rápida (rendimiento de 46 Hz) que OpenVLA en plataformas de borde, lo que demuestra su potencial para la implementación en el mundo real. El código está disponible en GitHub.

Takeaways, Limitations

Takeaways:
Presentamos un marco de entrenamiento eficiente que reduce significativamente la latencia de inferencia y el costo de entrenamiento de los modelos VLA.
Mejor utilización de las acciones generadas y del rendimiento general mediante estrategias de conjunto basadas en votación.
Demostración de alto rendimiento (46 Hz) y viabilidad de implementación en el mundo real en plataformas perimetrales.
Logre un rendimiento superior al de los modelos VLA de última generación.
Limitations:
Es necesaria una verificación adicional del rendimiento de generalización del método propuesto.
Se necesita una evaluación de escalabilidad para diversas tareas de manipulación de robots.
Posibles limitaciones en la portabilidad a otras plataformas debido a optimizaciones para plataformas de borde específicas.
👍