Dans cet article, nous présentons une méthode d'entraînement d'un modèle (PEVA) pour prédire des vidéos égocentriques issues d'actions humaines, à partir de vidéos et d'actions passées représentées sous forme de poses corporelles 3D relatives. Conditionné par des trajectoires de poses cinématiques structurées par la hiérarchie articulaire du corps, le modèle apprend à simuler la façon dont les actions humaines physiques façonnent l'environnement à la première personne. Nous entraînons un transformateur de diffusion conditionnelle autorégressif à l'aide de Nymeria, un jeu de données de capture de vidéos égocentriques et de poses corporelles réelles à grande échelle. Nous concevons également un protocole d'évaluation hiérarchique avec des tâches de difficulté croissante, permettant une analyse complète des capacités de prédiction et de contrôle implémentées du modèle. Ce travail constitue une première tentative de modélisation d'environnements réels complexes et d'actions d'agents implémentées d'un point de vue humain via la prédiction vidéo.