Dans cet article, nous proposons NEURONS, un nouveau cadre pour la reconstruction vidéo à partir de données IRMf. Afin de surmonter les difficultés des méthodes existantes pour capturer la dynamique spatio-temporelle, nous divisons l'apprentissage en quatre sous-tâches : segmentation d'objets clés, reconnaissance de concepts, description de scènes et reconstruction vidéo floue, inspirées de la structure hiérarchique du système visuel. Cela nous permet de capturer divers contenus vidéo et de reconstruire des vidéos en générant des signaux conditionnels robustes à l'aide d'un modèle de diffusion texte-vidéo pré-entraîné. Les résultats expérimentaux montrent que NEURONS surpasse les modèles de pointe en termes de cohérence vidéo (26,6 %) et de précision sémantique (19,1 %), et présente de fortes corrélations fonctionnelles avec le cortex visuel. Nous publions le code et les pondérations du modèle sur GitHub.