MoCHA एक नया विज़ुअल फ्रेमवर्क है जिसे विज़न लार्ज-स्केल लैंग्वेज मॉडल्स (VLLMs) के उच्च प्रशिक्षण और अनुमान लागतों और विज़ुअल विवरणों को निकालने की कठिनाई को दूर करने के लिए प्रस्तावित किया गया है। यह पूरक विज़ुअल विशेषताओं को निकालने के लिए चार विज़न बैकबोन्स: CLIP, SigLIP, DINOv2 और ConvNeXt को एकीकृत करता है। स्पर्स एक्सपर्ट मिक्स्चर कनेक्टर (MoECs) मॉड्यूल विभिन्न विज़ुअल आयामों के अनुरूप विशेषज्ञों का गतिशील रूप से चयन करता है। इसके अलावा, यह MoECs मॉड्यूल द्वारा एन्कोड की गई अनावश्यक या कम उपयोग की गई विज़ुअल जानकारी को कम करने के लिए पदानुक्रमित समूह ध्यान (HGA) और अनुकूली गेटिंग रणनीतियों का उपयोग करता है। MoCHA को अग्रणी LLMs, जैसे Phi2-2.7B और Vicuna-7B, पर प्रशिक्षित किया गया था और इसके प्रदर्शन का मूल्यांकन विभिन्न बेंचमार्क पर किया गया था। MoCHA ने कई कार्यों में अत्याधुनिक ओपन-वेटेड मॉडलों से बेहतर प्रदर्शन किया। विशेष रूप से, CuMo (मिस्ट्रल-7B) की तुलना में, MoCHA (Phi2-2.7B) ने प्रेडिक्टिव इमेज प्रोसेसिंग (POPE) पैमाने पर मतिभ्रम में 3.25% की कमी और मल्टी-मीन्स इवैल्यूएशन (MME) पैमाने पर दृश्य निर्देश में 153 अंकों का सुधार प्रदर्शित किया। अतिरिक्त एब्लेशन अध्ययनों ने प्रस्तावित MoECs और HGA की प्रभावशीलता और मजबूती की पुष्टि की।