본 논문은 기존 Contrastive Language-Image Pre-training (CLIP) 모델의 한계인 특징 공간의 한 측면만 인코딩하는 문제를 해결하기 위해, 상호 보완적인 여러 CLIP 모델을 미세 조정하여 CLIP-MoE(Mixture of Experts)로 통합하는 새로운 전략을 제시합니다. DMU(Diversified Multiplet Upcycling) 프레임워크를 통해 하나의 사전 훈련된 CLIP 모델을 효율적인 다단계 대조 학습으로 다양한 특징 하위 공간을 포착하는 여러 모델로 미세 조정합니다. 이후, 계산 비용을 최소화하면서 미세 조정된 모델들을 CLIP-MoE로 통합하여 모델 용량과 계산 비용 간의 균형을 효과적으로 달성합니다. 실험 결과, 제안된 CLIP-MoE는 다양한 제로샷 검색, 제로샷 이미지 분류 작업 및 MLLM(Multimodal Large Language Model) 벤치마크에서 우수한 성능을 보임을 보여줍니다.