[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EgoVLA : Apprentissage de modèles vision-langage-action à partir de vidéos humaines égocentriques

Created by
  • Haebom

Auteur

Ruihan Yang, Qinxi Yu, Yecheng Wu, Rui Yan, Borui Li, An-Chieh Cheng, Xueyan Zou, Yunhao Fang, Hongxu Yin, Sifei Liu, Song Han, Yao Lu, Xiaolong Wang

Contour

Dans cet article, nous proposons EgoVLA, un modèle Vision-Langage-Action (VLA) qui utilise des données vidéo capturées d'un point de vue humain pour surmonter les limites de la collecte de données robotiques réelles dans l'apprentissage par imitation pour la manipulation de robots. Nous entraînons le modèle VLA en utilisant des informations riches sur la scène et les tâches issues de données vidéo humaines, et convertissons les actions humaines en actions robotiques grâce à la cinématique inverse et au reciblage. Nous affinons le modèle à l'aide d'un petit nombre de démonstrations de manipulation de robots et évaluons ses performances sur diverses tâches de manipulation bimanuelle grâce à un test de simulation appelé « Ego Humanoid Manipulation Benchmark », démontrant sa supériorité par rapport aux méthodes existantes.

Takeaways, Limitations

Takeaways:
Améliorer l’efficacité de l’apprentissage par imitation de manipulation de robots grâce à l’utilisation à grande échelle de données vidéo humaines.
Amélioration des performances de généralisation sur une variété de scènes et de tâches.
Traduction efficace du comportement humain en comportement robotique grâce à la cinématique inverse et au reciblage.
Présentation d'un nouveau benchmark de simulation, l'Ego Humanoid Manipulation Benchmark.
Limitations:
Potentiel de précision réduite en raison des différences entre le comportement humain et celui du robot.
La vérification des performances de généralisation dans des environnements robotiques réels est nécessaire.
Limitations des performances de généralisation en raison des limites du benchmark de manipulation humanoïde Ego.
Dépendance à de petites quantités de données de démonstration de robot.
👍