본 논문에서는 Vision-Language Model (VLM)이 새로운 태스크를 순차적으로 fine-tuning할 때 발생하는 catastrophic forgetting 문제를 해결하기 위해 라우팅 기반 접근 방식을 제안합니다. 이 방식은 사전 학습 과정에서 획득한 기본적인 지식을 보존하면서 새로운 태스크를 통합할 수 있도록 합니다. InternVL-2 모델 (2B 및 8B 파라미터)을 사용하여 제안된 방법을 평가했으며, ChartQA, MMBench, DocVQA와 같은 일반적인 벤치마크에서 성능을 유지하면서 전문적인 태스크의 정확도를 향상시킬 수 있음을 입증했습니다. 또한, 모든 태스크의 데이터에 동시 접근할 필요가 없어 기존 multi-task learning에 비해 계산 및 데이터 오버헤드를 줄일 수 있습니다. 라우팅 기반 학습의 확장성 및 견고성을 평가하기 위한 다양한 ablation study를 수행했으며, 새로운 태스크가 의미적으로 관련될 때 특히 우수한 성능을 보임을 확인했습니다. 마지막으로, 라우팅 메커니즘을 통해 언어 및 비전 간의 뛰어난 cross-modal transfer가 가능하며, 기존의 continual learning 방식으로는 달성할 수 없는 방식으로 한 modality에서 학습된 지식이 다른 modality의 성능을 향상시킬 수 있음을 보여줍니다.