본 논문은 지속적 학습(Continual Learning, CL)에서 사전 훈련된 Vision Transformer (ViT)의 효율성을 높이기 위해 기존의 단일 정적 백본의 한계를 극복하는 새로운 모델, 자기 제어 동적 확장 모델(Self-Controlled Dynamic Expansion Model, SCDEM)을 제안합니다. SCDEM은 다수의 사전 훈련된 ViT 백본을 활용하여 다양하고 의미적으로 풍부한 표현을 제공하며, 새로운 작업에 적응하기 위해 최소한의 매개변수로 새로운 전문가(expert)를 동적으로 생성합니다. 협력적 최적화 메커니즘(Collaborative Optimization Mechanism, COM)을 통해 기존 전문가의 예측 신호를 활용하여 여러 백본을 시너지 효과적으로 최적화하고, 특징 분포 일관성(Feature Distribution Consistency, FDC) 접근 방식을 통해 최적 수송 거리 기반 메커니즘으로 이전과 현재 학습된 표현 간의 의미적 유사성을 맞춰 부정적 지식 전이 효과를 완화합니다. 또한, 동적 계층별 특징 주의 메커니즘(Dynamic Layer-Wise Feature Attention Mechanism, DLWFAM)을 통해 과적합 문제를 해결합니다. 실험 결과, 제안된 방법론이 최첨단 성능을 달성함을 보여줍니다.