Dans cet article, nous proposons NEURONS, un nouveau cadre pour la reconstruction vidéo à partir de données IRMf. Pour pallier la difficulté des méthodes existantes à capturer la dynamique spatio-temporelle, nous divisons l'apprentissage en quatre sous-tâches (segmentation d'objets saillants, reconnaissance de concepts, description de scènes et reconstruction de vidéos floues) inspirées de la structure hiérarchique du système visuel. Cela nous permet de capturer divers contenus vidéo et de reconstruire des vidéos à l'aide d'un modèle de diffusion texte-vidéo pré-entraîné. Les résultats expérimentaux montrent que notre cadre proposé améliore significativement la cohérence vidéo (26,6 %) et la précision sémantique (19,1 %) par rapport aux méthodes existantes, et démontre de fortes corrélations fonctionnelles avec le cortex visuel.