Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprendre la préhension adaptative et adroite à partir de démonstrations uniques

Created by
  • Haebom

Auteur

Liangzhi Shi, Yulin Liu, Lingqi Zeng, Bo Ai, Zhengdong Hong, Hao Su

Contour

AdaDexGrasp est un framework qui apprend efficacement des techniques de préhension avancées à partir de démonstrations humaines limitées et les applique de manière adaptative en fonction des instructions de l'utilisateur. Il apprend plusieurs techniques de préhension à partir d'une seule démonstration humaine et sélectionne la technique la plus appropriée grâce à un modèle vision-langage (VLM). Pour optimiser l'efficacité des échantillons, il propose une récompense par suivi de trajectoire qui guide l'apprentissage par renforcement (RL) vers un état plus proche des démonstrations humaines. Il apprend également au-delà d'une seule démonstration grâce à l'apprentissage par programme, ce qui augmente progressivement le nombre de variations de pose des objets. Lors du déploiement, le VLM recherche les techniques appropriées en fonction des instructions de l'utilisateur, reliant les techniques d'apprentissage de bas niveau à l'intention de haut niveau. Les évaluations en simulation et en environnement réel démontrent qu'il améliore significativement l'efficacité de l'RL et permet l'apprentissage de stratégies de préhension de type humain dans diverses configurations d'objets. Le transfert instantané de la stratégie apprise vers la main PSYONIC Ability Hand réelle atteint un taux de réussite de 90 % sur les objets, dépassant largement la référence.

Takeaways, Limitations

Takeaways:
Des compétences efficaces et qualifiées en matière de phages peuvent être acquises à partir de démonstrations humaines limitées.
Refléter l'intention de haut niveau grâce à une sélection technologique basée sur le contexte à l'aide de modèles de langage de vision.
Apprentissage et généralisation de compétences solides grâce à l’apprentissage du programme.
Transfert réussi du tir zéro vers la main réelle du robot.
Apprentissage de stratégies de phages de type humain.
Limitations:
Manque de description détaillée de la structure spécifique et des performances du VLM proposé.
Limitations des performances de généralisation sur une variété d’objets et de situations.
Des tests et une validation supplémentaires dans des environnements réels sont nécessaires.
Manque de discussion sur la définition des paramètres optimaux pour la compensation du suivi de trajectoire.
👍