MobileCLIP은 315ms의 낮은 지연 시간과 50150M의 매개변수를 가진 최첨단 제로샷 정확도를 제공하는 이미지-텍스트 모델입니다. 본 논문에서는 다중 모드 강화 학습을 개선하여 MobileCLIP2를 제시합니다. 개선 사항으로는 DFN 데이터셋으로 학습된 향상된 CLIP 교사 앙상블과 다양한 고품질 이미지-캡션 데이터셋으로 미세 조정된 향상된 캡션 생성기 교사를 사용합니다. 대조적 지식 증류에서 온도 조정의 중요성, 캡션 다양성을 위한 캡션 생성기 미세 조정의 효과, 여러 모델로 생성된 합성 캡션 결합의 추가적인 개선 등을 실험적으로 확인하였습니다. 결과적으로, MobileCLIP2는 ImageNet-1k에서 최첨단 제로샷 정확도를 달성하며, 특히 MobileCLIP2-B는 MobileCLIP-B에 비해 2.2%의 정확도 향상을 보였습니다. MobileCLIP2-S4는 SigLIP-SO400M/14와 동일한 제로샷 정확도를 달성하면서 2배 작은 크기를 가지며, DFN ViT-L/14보다 2.5배 낮은 지연 시간을 보입니다. 학습된 모델과 데이터 생성 코드를 공개합니다.