Bài báo này đề xuất một khuôn khổ mới cho việc học liên tục trong các tình huống liên quan đến nhiều phương thức (hình ảnh, video, âm thanh, độ sâu và văn bản). Để khắc phục những hạn chế của các phương pháp học liên tục đơn phương thức hiện có, chúng tôi sử dụng một phương pháp đào tạo các mô hình liên kết nhiều phương thức với văn bản. Để giải quyết vấn đề quên kiến thức hiện có do sự khác biệt giữa các phương thức, chúng tôi trình bày một khuôn khổ tích hợp kiến thức trong các phương thức và tích hợp thông tin liên phương thức có liên quan. Khuôn khổ này tự điều chỉnh các thay đổi trong các biểu diễn đã học để dần dần kết hợp kiến thức mới và tích hợp có chọn lọc kiến thức đã học trước đó từ các phương thức dựa trên mối quan hệ tương hỗ của chúng, giảm thiểu sự can thiệp giữa các phương thức. Hơn nữa, chúng tôi giới thiệu một chiến lược để sắp xếp lại các nhúng phương thức để giải quyết sự liên kết sai lệch giữa các phương thức. Chúng tôi đánh giá phương pháp được đề xuất trên nhiều tình huống học liên tục trên nhiều tập dữ liệu sử dụng các phương thức khác nhau và chứng minh bằng thực nghiệm rằng nó vượt trội hơn các phương pháp hiện có, bất kể danh tính phương thức có được chỉ định hay không.