Sign In

Dynamic Routing Between Experts: A Data-Efficient Approach to Continual Learning in Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Jay Mohta, Kenan Emir Ak, Dimitrios Dimitriadis, Yan Xu, Mingwei Shen

개요

본 논문에서는 Vision-Language Model (VLM)이 새로운 태스크를 순차적으로 fine-tuning할 때 발생하는 catastrophic forgetting 문제를 해결하기 위해 라우팅 기반 접근 방식을 제안합니다. 이 방식은 사전 학습 과정에서 획득한 기본적인 지식을 보존하면서 새로운 태스크를 통합할 수 있도록 합니다. InternVL-2 모델 (2B 및 8B 파라미터)을 사용하여 제안된 방법을 평가했으며, ChartQA, MMBench, DocVQA와 같은 일반적인 벤치마크에서 성능을 유지하면서 전문적인 태스크의 정확도를 향상시킬 수 있음을 입증했습니다. 또한, 모든 태스크의 데이터에 동시 접근할 필요가 없어 기존 multi-task learning에 비해 계산 및 데이터 오버헤드를 줄일 수 있습니다. 라우팅 기반 학습의 확장성 및 견고성을 평가하기 위한 다양한 ablation study를 수행했으며, 새로운 태스크가 의미적으로 관련될 때 특히 우수한 성능을 보임을 확인했습니다. 마지막으로, 라우팅 메커니즘을 통해 언어 및 비전 간의 뛰어난 cross-modal transfer가 가능하며, 기존의 continual learning 방식으로는 달성할 수 없는 방식으로 한 modality에서 학습된 지식이 다른 modality의 성능을 향상시킬 수 있음을 보여줍니다.

시사점, 한계점

시사점:
catastrophic forgetting 문제를 해결하여 VLM의 지속적인 학습 능력을 향상시킴.
multi-task learning의 계산 및 데이터 오버헤드 없이 새로운 태스크를 통합 가능.
일반적인 벤치마크와 전문적인 태스크 모두에서 성능을 향상시킴.
언어 및 비전 간의 cross-modal transfer를 통해 모델의 일반화 능력을 향상시킴.
새로운 태스크가 의미적으로 관련될 때 특히 우수한 성능을 보임.
한계점:
논문에 구체적인 한계점에 대한 언급은 없음.
👍