दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

MoCHA: MoE कनेक्टर और पदानुक्रमित समूह ध्यान के साथ उन्नत दृष्टि-भाषा तर्क

Created by
  • Haebom

लेखक

युकी पैंग, बोवेन यांग, यूं काओ, रोंग फैन, ज़ियाओयू ली, चेन हे

रूपरेखा

MoCHA एक नया विज़ुअल फ्रेमवर्क है जिसे विज़न लार्ज-स्केल लैंग्वेज मॉडल्स (VLLMs) के उच्च प्रशिक्षण और अनुमान लागतों और विज़ुअल विवरणों को निकालने की कठिनाई को दूर करने के लिए प्रस्तावित किया गया है। यह पूरक विज़ुअल विशेषताओं को निकालने के लिए चार विज़न बैकबोन्स: CLIP, SigLIP, DINOv2 और ConvNeXt को एकीकृत करता है। स्पर्स एक्सपर्ट मिक्स्चर कनेक्टर (MoECs) मॉड्यूल विभिन्न विज़ुअल आयामों के अनुरूप विशेषज्ञों का गतिशील रूप से चयन करता है। इसके अलावा, यह MoECs मॉड्यूल द्वारा एन्कोड की गई अनावश्यक या कम उपयोग की गई विज़ुअल जानकारी को कम करने के लिए पदानुक्रमित समूह ध्यान (HGA) और अनुकूली गेटिंग रणनीतियों का उपयोग करता है। MoCHA को अग्रणी LLMs, जैसे Phi2-2.7B और Vicuna-7B, पर प्रशिक्षित किया गया था और इसके प्रदर्शन का मूल्यांकन विभिन्न बेंचमार्क पर किया गया था। MoCHA ने कई कार्यों में अत्याधुनिक ओपन-वेटेड मॉडलों से बेहतर प्रदर्शन किया। विशेष रूप से, CuMo (मिस्ट्रल-7B) की तुलना में, MoCHA (Phi2-2.7B) ने प्रेडिक्टिव इमेज प्रोसेसिंग (POPE) पैमाने पर मतिभ्रम में 3.25% की कमी और मल्टी-मीन्स इवैल्यूएशन (MME) पैमाने पर दृश्य निर्देश में 153 अंकों का सुधार प्रदर्शित किया। अतिरिक्त एब्लेशन अध्ययनों ने प्रस्तावित MoECs और HGA की प्रभावशीलता और मजबूती की पुष्टि की।

Takeaways, Limitations

Takeaways:
वीएलएलएम की उच्च लागत की समस्या को प्रभावी ढंग से हल करने के लिए एक नवीन रूपरेखा प्रस्तुत की गई है।
पूरक दृश्य सुविधा निष्कर्षण के माध्यम से प्रदर्शन में वृद्धि।
MoECs और HGA मॉड्यूल के माध्यम से दृश्य सूचना उपयोग की दक्षता में वृद्धि करना।
दृश्य निर्देशों का पालन करने में मतिभ्रम में कमी और बेहतर प्रदर्शन।
विभिन्न बेंचमार्कों पर SOTA प्रदर्शन प्राप्त करना।
Limitations:
प्रस्तावित ढांचे की सामान्यता का पता लगाने के लिए आगे अनुसंधान की आवश्यकता है।
विशिष्ट एलएलएम पर निर्भरता और अन्य एलएलएम के साथ संगतता का आकलन करने की आवश्यकता है।
अधिक विविध एवं व्यापक बेंचमार्क मूल्यांकन की आवश्यकता है।
MoECs और HGA मॉड्यूल के पैरामीटर ट्यूनिंग के विस्तृत स्पष्टीकरण का अभाव।
👍