Este artículo propone un escenario realista para el aprendizaje por video en un entorno de aprendizaje no supervisado, donde el aprendizaje continuo de tareas se produce sin etiquetas ni límites de tarea. A pesar de la complejidad y la rica información espaciotemporal de los datos de video, estos han sido poco estudiados en el campo del aprendizaje continuo no supervisado. Abordamos el problema de las investigaciones previas centradas exclusivamente en el aprendizaje supervisado, que se basa en etiquetas y límites de tarea. Por lo tanto, este artículo estudia el aprendizaje continuo por video no supervisado (uVCL) y presenta un protocolo experimental de referencia general para uVCL, considerando los altos requisitos computacionales y de memoria del procesamiento de video. Utilizamos la Estimación de Densidad de Kernel (KDE) para las características de video profundamente integradas extraídas por una red de Transformador de Video no supervisada como una representación probabilística no paramétrica. Introducimos un criterio de detección de novedades para nuevos datos de tarea con el fin de expandir dinámicamente los clústeres de memoria, capturando así nuevo conocimiento. Aprovechamos el aprendizaje por transferencia de tareas previas como estado inicial para la transferencia de conocimiento a la tarea de aprendizaje actual, y observamos que la metodología propuesta mejora significativamente el rendimiento del modelo al entrenarse en múltiples tareas simultáneamente. Realizamos evaluaciones en profundidad sin etiquetas ni límites de clase en tres conjuntos de datos de reconocimiento de acciones de video estándar: UCF101, HMDB51 y Something-to-Something V2.