Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Aligner-puis-diriger : adapter les modèles d'action vision-langage grâce à un guidage latent unifié

Created by
  • Haebom

Auteur

Yang Zhang, Chenwei Wang, Ouyang Lu, Yuan Zhao, Yunfei Ge, Zhenglong Sun, Xiu Li, Chi Zhang, Chenjia Bai, Xuelong Li

Contour

Cet article présente le cadre Align-Then-StEer (ATE) pour relever les défis de l'application de modèles Vision-Langage-Action (VLA) pré-entraînés à des tâches en aval utilisant de grands ensembles de données diversifiés. ATE construit un espace latent unifié à l'aide d'un autoencodeur variationnel contraint par une divergence KL inverse pour incorporer des actions adaptatives dans les modes de la distribution latente d'action pré-entraînée. Il contrôle ensuite le processus de génération d'un VLA basé sur la diffusion ou le flux pendant le réglage fin via un mécanisme de guidage qui déplace la distribution de sortie du modèle vers le domaine cible. Des expériences approfondies sur l'implémentation croisée et la manipulation inter-tâches en simulation et en environnements réels démontrent que, par rapport au réglage fin direct des VLA conventionnels, l'approche proposée améliore le taux de réussite multi-tâches moyen jusqu'à 9,8 % en simulation et 32 ​​% dans des contextes d'implémentation croisée réels.

Takeaways, Limitations

Takeaways:
Il fournit une solution générale et légère qui améliore considérablement l'applicabilité des modèles VLA aux plates-formes et tâches robotiques du monde réel.
Les modèles VLA peuvent être adaptés aux nouvelles plateformes et tâches robotiques de manière efficace en termes de données.
Améliore considérablement les performances d'implémentation croisée et de manipulation intertâches dans les environnements de simulation et réels.
Limitations:
Des recherches complémentaires sont nécessaires pour déterminer les performances de généralisation du cadre ATE présenté dans cet article. Des tests supplémentaires sur diverses tâches et plateformes robotiques pourraient être nécessaires.
Des recherches supplémentaires sont nécessaires pour déterminer si les contraintes utilisant la divergence KL inverse constituent l’approche optimale ou si de meilleures performances peuvent être obtenues en utilisant d’autres méthodes de contraintes.
Dans les applications du monde réel, il peut y avoir un manque de prise en compte des limitations de taille d’échantillon ou des facteurs environnementaux.
👍