Dans cet article, nous présentons une approche améliorée de super-résolution vidéo qui étend l'architecture existante du réseau antagoniste génératif à super-résolution d'image unique (SRGAN) au traitement des données spatio-temporelles. Bien que SRGAN soit efficace pour l'amélioration d'image unique, il ne prend pas en compte la continuité temporelle, pourtant nécessaire au traitement vidéo. Pour remédier à ce problème, nous proposons un cadre modifié intégrant des blocs 3D non locaux afin de capturer les relations entre les dimensions spatiales et temporelles. Pour simuler des conditions vidéo réelles et apprendre les structures et détails locaux et globaux, nous développons un pipeline d'apprentissage expérimental basé sur l'apprentissage par patch et des techniques avancées de dégradation des données. Cela permet au modèle d'améliorer les performances de généralisation tout en maintenant la stabilité sur divers contenus vidéo, et de préserver la structure générale ainsi que la précision des pixels. Afin d'explorer le compromis entre performance et efficacité, nous présentons deux variantes du modèle : un modèle de grande taille et un modèle plus léger. Les résultats démontrent une meilleure cohérence temporelle, une texture plus nette et moins d'artefacts visuels par rapport aux méthodes d'image unique existantes. Cette étude contribue au développement de solutions pratiques d’amélioration vidéo basées sur l’apprentissage avec des applications potentielles dans le streaming, les jeux et la restauration numérique.