MoCHA es un novedoso marco visual propuesto para abordar los altos costos de entrenamiento e inferencia de los modelos de lenguaje a gran escala (VLLM) de visión y la dificultad de extraer detalles visuales. Integra cuatro pilares de visión: CLIP, SigLIP, DINOv2 y ConvNeXt, para extraer características visuales complementarias. El módulo conector de mezcla de expertos dispersos (MoEC) selecciona dinámicamente expertos adaptados a diferentes dimensiones visuales. Además, utiliza la Atención de Grupo Jerárquico (HGA) y estrategias de compuerta adaptativa para mitigar la información visual redundante o infrautilizada codificada por el módulo MoEC. MoCHA se entrenó con los principales LLM, como Phi2-2.7B y Vicuna-7B, y su rendimiento se evaluó en diversos puntos de referencia. MoCHA superó a los modelos de ponderación abierta más avanzados en varias tareas. En concreto, en comparación con CuMo (Mistral-7B), MoCHA (Phi2-2.7B) demostró una mejora del 3,25 % en la reducción de alucinaciones en la escala de Procesamiento Predictivo de Imágenes (POPE) y una mejora de 153 puntos en el seguimiento de instrucciones visuales en la escala de Evaluación Multimedia (MME). Estudios adicionales de ablación confirmaron la eficacia y la robustez de los MoEC y la HGA propuestos.