Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DexGraspVLA : un cadre vision-langage-action pour une compréhension adroite générale

Created by
  • Haebom

Auteur

Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Zhang Chen, Tianrui Guan, Fanlian Zeng, Ka Num Lui, Yuyao Ye, Yitao Liang, Yaodong Yang, Yuanpei Chen

Contour

DexGraspVLA est un cadre hiérarchique pour la saisie adroite générale guidée par le langage et au-delà. Il utilise un modèle vision-langage pré-entraîné comme planificateur de haut niveau et apprend un contrôleur d'action de bas niveau basé sur la diffusion. L'idée clé pour parvenir à la généralisation réside dans la transformation itérative de diverses entrées langagières et visuelles en représentations invariantes au domaine via le modèle sous-jacent, où l'atténuation des changements de domaine applique efficacement l'apprentissage par imitation. Cette méthode atteint des taux de réussite de saisie adroite supérieurs à 90 % dans des milliers de scènes complexes, inconnues et encombrées. Une analyse empirique valide la conception en vérifiant la cohérence du comportement du modèle interne face aux changements d'environnement. De plus, DexGraspVLA est le premier à démontrer simultanément une exécution libre et rapide à long terme, une robustesse aux objets adverses et aux interférences humaines, et une récupération après incident. Des applications étendues à la saisie sans saisie démontrent encore sa généralité.

Takeaways, Limitations

Takeaways:
Combinaison d'un modèle de langage visuel pré-entraîné avec un contrôleur d'action basé sur la diffusion pour obtenir un taux de réussite élevé en matière de saisie adroite dans divers environnements.
Améliorer l’efficacité de l’apprentissage par imitation et améliorer les performances de généralisation à l’aide de représentations invariantes de domaine.
Mise en œuvre simultanée d'une exécution rapide à long terme sous forme libre, d'une robustesse contre les objets adverses et les interférences humaines, et d'une récupération après panne.
Nous présentons un cadre général qui peut être étendu aux phages non phagiques.
Limitations:
L'article ne mentionne pas spécifiquement Limitations. Des recherches futures pourraient nécessiter une évaluation plus rigoureuse de la robustesse et de la capacité de généralisation de l'algorithme.
Manque de détails sur l’application et l’évaluation des performances des systèmes robotiques réels.
Manque d’analyse des coûts de calcul et des performances en temps réel.
👍