Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Prédiction vidéo égocentrique conditionnée par le corps entier

Created by
  • Haebom

Auteur

Yutong Bai, Danny Tran, Amir Bar, Yann LeCun, Trevor Darrell, Jitendra Malik

Contour

Dans cet article, nous présentons une méthode d'entraînement d'un modèle (PEVA) pour prédire des vidéos égocentriques issues d'actions humaines, à partir de vidéos et d'actions passées représentées sous forme de poses corporelles 3D relatives. Conditionné par des trajectoires de poses cinématiques structurées par la hiérarchie articulaire du corps, le modèle apprend à simuler la façon dont les actions humaines physiques façonnent l'environnement à la première personne. Nous entraînons un transformateur de diffusion conditionnelle autorégressif à l'aide de Nymeria, un jeu de données de capture de vidéos égocentriques et de poses corporelles réelles à grande échelle. Nous concevons également un protocole d'évaluation hiérarchique avec des tâches de difficulté croissante, permettant une analyse complète des capacités de prédiction et de contrôle implémentées du modèle. Ce travail constitue une première tentative de modélisation d'environnements réels complexes et d'actions d'agents implémentées d'un point de vue humain via la prédiction vidéo.

Takeaways, Limitations

Takeaways:
Un nouveau modèle (PEVA) permettant de prédire les vidéos égocentriques en fonction du comportement humain est présenté.
Formation utilisant l'ensemble de données réelles à grande échelle Nymeria
Analyse complète des performances du modèle grâce à un protocole d'évaluation hiérarchique
Poser les bases de la recherche sur la modélisation d'environnements complexes et du comportement des agents grâce à la prédiction vidéo centrée sur l'humain
Limitations:
Manque d'informations sur la taille et la composition spécifiques de l'ensemble de données Nymeria.
Manque d’analyse quantitative de la précision prédictive et des limites du modèle.
Aucun détail spécifique sur le protocole d’évaluation hiérarchique proposé n’est fourni.
Limitations possibles dans la pleine prise en compte de la complexité des environnements du monde réel
👍