본 논문은 여러 모달리티(이미지, 비디오, 오디오, 깊이, 텍스트)를 포함하는 시나리오에서 지속적 학습을 위한 새로운 프레임워크를 제안합니다. 기존의 단일 모달리티 지속적 학습 방법의 한계를 극복하기 위해, 다양한 모달리티를 텍스트와 정렬하는 모델을 학습시키는 접근 방식을 사용합니다. 모달리티 간의 차이로 인한 기존 지식의 망각 문제를 해결하기 위해, 모달리티 내 지식을 통합하고 관련된 모달리티 간 정보를 통합하는 프레임워크를 제시합니다. 이는 학습된 표현의 변화를 자기 조절하여 새로운 지식을 점진적으로 통합하고, 상호 관련성에 기반하여 이전에 학습된 모달리티의 지식을 선택적으로 통합함으로써 모달리티 간 간섭을 완화합니다. 또한, 모달리티 임베딩을 재정렬하는 전략을 도입하여 모달리티 간 편향된 정렬 문제를 해결합니다. 다양한 모달리티를 사용하는 여러 데이터셋에서 광범위한 지속적 학습 시나리오에 대해 제안된 방법을 평가하고, 모달리티의 정체성이 주어지든 그렇지 않든 기존 방법보다 우수한 성능을 보임을 실험적으로 보여줍니다.