MobileCLIP एक इमेज-टू-टेक्स्ट मॉडल है जो 3-15 मिलीसेकंड की कम विलंबता और 50 से 150 मिलियन तक के पैरामीटर्स के साथ अत्याधुनिक ज़ीरो-शॉट सटीकता प्राप्त करता है। इस शोधपत्र में, हम MobileCLIP2 प्रस्तुत करते हैं, जो मल्टी-मोडल रीइन्फोर्समेंट लर्निंग का एक उन्नत संस्करण है। इन सुधारों में DFN डेटासेट पर प्रशिक्षित एक उन्नत CLIP शिक्षक समूह और विभिन्न उच्च-गुणवत्ता वाले इमेज-कैप्शन डेटासेट पर परिष्कृत एक उन्नत कैप्शन जनरेटर शिक्षक शामिल हैं। हम प्रयोगात्मक रूप से कंट्रास्टिव नॉलेज डिस्टिलेशन में तापमान ट्यूनिंग के महत्व, कैप्शन विविधता के लिए कैप्शन जनरेटर के फाइन-ट्यूनिंग की प्रभावशीलता, और कई मॉडलों द्वारा उत्पन्न सिंथेटिक कैप्शन के संयोजन में और अधिक सुधारों को प्रदर्शित करते हैं। परिणामस्वरूप, MobileCLIP2, ImageNet-1k पर अत्याधुनिक ज़ीरो-शॉट सटीकता प्राप्त करता है, और MobileCLIP2-B, MobileCLIP-B की तुलना में 2.2% सटीकता सुधार प्राप्त करता है। MobileCLIP2-S4, SigLIP-SO400M/14 के समान ही शून्य-शॉट सटीकता प्राप्त करता है, लेकिन DFN ViT-L/14 की तुलना में दोगुना छोटा है और इसकी विलंबता 2.5 गुना कम है। प्रशिक्षित मॉडल और डेटा जनरेशन कोड सार्वजनिक रूप से उपलब्ध हैं।