Este artículo presenta un enfoque novedoso para el análisis de señales de electroencefalografía (EEG), difícil de analizar eficazmente debido a la escasez de datos, la alta dimensionalidad y la ausencia de modelos que no puedan capturar completamente las dependencias espaciotemporales. A diferencia de los métodos existentes de aprendizaje autosupervisado (SSL), que se centran en características espaciales o temporales, en este artículo proponemos un modelo EEG-VJEPA que trata el EEG como una secuencia similar a un vídeo y aprende representaciones espaciotemporales. EEG-VJEPA aplica la Arquitectura Predictiva de Incorporación Conjunta de Vídeo (V-JEPA) a la clasificación de EEG y aprende representaciones espaciotemporales significativas mediante la incorporación conjunta y el enmascaramiento adaptativo. Los resultados experimentales, utilizando el conjunto de datos de EEG anormal de TUH, demuestran que EEG-VJEPA supera a los modelos de vanguardia existentes en precisión de clasificación, lo que demuestra su potencial para respaldar la colaboración entre humanos e IA en flujos de trabajo de diagnóstico al capturar patrones de señales espaciotemporales fisiológicamente relevantes y proporcionar incorporaciones interpretables.