Este artículo propone un nuevo marco para el aprendizaje continuo en escenarios que involucran múltiples modalidades (imágenes, video, audio, profundidad y texto). Para superar las limitaciones de los métodos existentes de aprendizaje continuo de modalidad única, empleamos un enfoque que entrena modelos que alinean varias modalidades con texto. Para abordar el problema del olvido del conocimiento existente debido a las diferencias entre modalidades, presentamos un marco que integra el conocimiento dentro de las modalidades e integra información intermodal relevante. Este marco autorregula los cambios en las representaciones aprendidas para incorporar gradualmente nuevo conocimiento e integra selectivamente el conocimiento previamente aprendido de las modalidades con base en sus interrelaciones, mitigando la interferencia entre ellas. Además, presentamos una estrategia para realinear las incrustaciones de modalidad para abordar la alineación sesgada entre modalidades. Evaluamos el método propuesto en una amplia gama de escenarios de aprendizaje continuo en múltiples conjuntos de datos utilizando diferentes modalidades, y demostramos experimentalmente que supera a los métodos existentes, independientemente de si se especifica la identidad de modalidad.