दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

मोबाइलक्लिप2: बहु-मॉडल प्रबलित प्रशिक्षण में सुधार

Created by
  • Haebom

लेखक

फ़रताश फाघरी, पवन कुमार अनासोसालु वासु, केम कोक, वैशाल शंकर, अलेक्जेंडर तोशेव, ओन्सेल तुज़ेल, हादी पौरानसारी

रूपरेखा

MobileCLIP एक इमेज-टू-टेक्स्ट मॉडल है जो 3-15 मिलीसेकंड की कम विलंबता और 50 से 150 मिलियन तक के पैरामीटर्स के साथ अत्याधुनिक ज़ीरो-शॉट सटीकता प्राप्त करता है। इस शोधपत्र में, हम MobileCLIP2 प्रस्तुत करते हैं, जो मल्टी-मोडल रीइन्फोर्समेंट लर्निंग का एक उन्नत संस्करण है। इन सुधारों में DFN डेटासेट पर प्रशिक्षित एक उन्नत CLIP शिक्षक समूह और विभिन्न उच्च-गुणवत्ता वाले इमेज-कैप्शन डेटासेट पर परिष्कृत एक उन्नत कैप्शन जनरेटर शिक्षक शामिल हैं। हम प्रयोगात्मक रूप से कंट्रास्टिव नॉलेज डिस्टिलेशन में तापमान ट्यूनिंग के महत्व, कैप्शन विविधता के लिए कैप्शन जनरेटर के फाइन-ट्यूनिंग की प्रभावशीलता, और कई मॉडलों द्वारा उत्पन्न सिंथेटिक कैप्शन के संयोजन में और अधिक सुधारों को प्रदर्शित करते हैं। परिणामस्वरूप, MobileCLIP2, ImageNet-1k पर अत्याधुनिक ज़ीरो-शॉट सटीकता प्राप्त करता है, और MobileCLIP2-B, MobileCLIP-B की तुलना में 2.2% सटीकता सुधार प्राप्त करता है। MobileCLIP2-S4, SigLIP-SO400M/14 के समान ही शून्य-शॉट सटीकता प्राप्त करता है, लेकिन DFN ViT-L/14 की तुलना में दोगुना छोटा है और इसकी विलंबता 2.5 गुना कम है। प्रशिक्षित मॉडल और डेटा जनरेशन कोड सार्वजनिक रूप से उपलब्ध हैं।

Takeaways, Limitations

Takeaways:
हम MobileCLIP2 मॉडल प्रस्तुत करते हैं, जो बहु-मॉडल सुदृढीकरण सीखने में सुधार करता है और MobileCLIP से बेहतर प्रदर्शन करता है।
इमेजनेट-1k पर अत्याधुनिक शून्य-शॉट सटीकता प्राप्त करना।
कम विलंबता और छोटे मॉडल आकार को बनाए रखते हुए बेहतर प्रदर्शन।
तापमान समायोजन, कैप्शन जनरेटर फाइन-ट्यूनिंग और मल्टी-मॉडल सिंथेटिक कैप्शनिंग की प्रभावशीलता का प्रयोगात्मक सत्यापन।
पुनरुत्पादनीय अनुसंधान के लिए प्रशिक्षित मॉडल और डेटा जनरेशन कोड जारी करना।
Limitations:
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या इस पत्र में प्रस्तुत सुधारों को अन्य छवि-पाठ मॉडलों पर लागू किया जा सकता है।
किसी विशिष्ट डेटासेट के लिए प्रदर्शन अनुकूलन संभव है। अन्य डेटासेट पर प्रदर्शन मूल्यांकन आवश्यक है।
👍