Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VOTE : Optimisation vision-langage-action avec le vote d'ensemble de trajectoires

Created by
  • Haebom

Auteur

Juyi Lin, Amir Taherin, Arash Akbari, Arman Akbari, Lei Lu, Guangyu Chen, Taskin Padir, Xiaomeng Yang, Weiwei Chen, Yiqian Li, Xue Lin, David Kaeli, Pu Zhao, Yanzhi Wang

Contour

Cet article présente un nouveau cadre d'apprentissage et une technique d'optimisation de l'inférence qui remédient à deux inconvénients des modèles Vision Verbal Action (VLA) à grande échelle : une latence d'inférence élevée et des coûts d'apprentissage accrus dus à la génération d'un grand nombre de jetons, ainsi que de faibles performances dues à la sous-utilisation des actions générées. Le cadre proposé réduit efficacement la latence d'inférence et les coûts d'apprentissage en affinant le modèle VLA afin de générer un nombre beaucoup plus réduit de jetons d'action avec un parallélisme élevé. De plus, une technique d'optimisation de l'inférence utilisant une nouvelle stratégie d'ensemble basée sur le vote combine les prédictions d'actions actuelles et précédentes pour améliorer l'utilisation des actions générées et les performances globales. Les résultats expérimentaux démontrent que le cadre proposé surpasse les modèles VLA de pointe, avec des taux de réussite nettement supérieurs et une vitesse d'inférence 39 fois plus rapide (débit de 46 Hz) qu'OpenVLA sur les plateformes périphériques, démontrant ainsi son potentiel de déploiement en situation réelle. Le code est disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Nous présentons un cadre de formation efficace qui réduit considérablement la latence d'inférence et le coût de formation des modèles VLA.
Utilisation améliorée des actions générées et des performances globales grâce à des stratégies d'ensemble basées sur le vote.
Démonstration d'un débit élevé (46 Hz) et d'une faisabilité de déploiement dans le monde réel sur des plates-formes périphériques.
Obtenez des performances supérieures à celles des modèles VLA de pointe.
Limitations:
Une vérification supplémentaire des performances de généralisation de la méthode proposée est nécessaire.
Une évaluation de l’évolutivité pour diverses tâches de manipulation de robots est nécessaire.
Limitations potentielles de portabilité vers d'autres plateformes en raison d'optimisations pour des plateformes périphériques spécifiques.
👍