MoCHA est un nouveau framework visuel proposé pour répondre aux coûts élevés d'apprentissage et d'inférence des modèles de langage à grande échelle (VLLM) et à la difficulté d'extraction des détails visuels. Il intègre quatre piliers de vision : CLIP, SigLIP, DINOv2 et ConvNeXt, pour extraire des caractéristiques visuelles complémentaires. Le module de connecteur de mélange d'experts clairsemés (MoECs) sélectionne dynamiquement des experts adaptés à différentes dimensions visuelles. De plus, il utilise l'attention de groupe hiérarchique (HGA) et des stratégies de filtrage adaptatif pour atténuer les informations visuelles redondantes ou sous-utilisées codées par le module MoECs. MoCHA a été entraîné sur des LLM de premier plan, tels que Phi2-2.7B et Vicuna-7B, et ses performances ont été évaluées sur différents benchmarks. MoCHA a surpassé les modèles pondérés ouverts de pointe sur plusieurs tâches. Plus précisément, comparé au CuMo (Mistral-7B), le MoCHA (Phi2-2.7B) a démontré une amélioration de 3,25 % de la réduction des hallucinations sur l'échelle de traitement prédictif des images (POPE) et une amélioration de 153 points de l'instruction visuelle sur l'échelle d'évaluation multi-moyennes (MME). Des études d'ablation complémentaires ont confirmé l'efficacité et la robustesse des MoEC et de l'HGA proposés.