Cet article présente une nouvelle approche de l'analyse du signal d'électroencéphalographie (EEG), difficile à analyser efficacement en raison du manque de données, de la forte dimensionnalité et de l'absence de modèles ne permettant pas de saisir pleinement les dépendances spatio-temporelles. Contrairement aux méthodes d'apprentissage auto-supervisé (SSL) existantes qui se concentrent sur les caractéristiques spatiales ou temporelles, nous proposons dans cet article un modèle EEG-VJEPA qui traite l'EEG comme une séquence vidéo et apprend des représentations spatio-temporelles. L'EEG-VJEPA applique l'architecture prédictive d'intégration vidéo conjointe (V-JEPA) à la classification EEG et apprend des représentations spatio-temporelles significatives grâce à l'intégration conjointe et au masquage adaptatif. Les résultats expérimentaux obtenus à partir de l'ensemble de données EEG anormales de la TUH démontrent que l'EEG-VJEPA surpasse les modèles de pointe existants en termes de précision de classification, démontrant ainsi son potentiel pour soutenir la collaboration homme-IA dans les flux de travail diagnostiques en capturant des schémas de signaux spatio-temporels physiologiquement pertinents et en fournissant des intégrations interprétables.