MoCHA là một khuôn khổ trực quan mới được đề xuất để giải quyết chi phí đào tạo và suy luận cao của các mô hình ngôn ngữ quy mô lớn về thị giác (VLLM) và khó khăn trong việc trích xuất các chi tiết trực quan. Nó tích hợp bốn xương sống thị giác: CLIP, SigLIP, DINOv2 và ConvNeXt để trích xuất các đặc điểm trực quan bổ sung. Mô-đun kết nối hỗn hợp chuyên gia thưa thớt (MoECs) tự động lựa chọn các chuyên gia phù hợp với các chiều trực quan khác nhau. Hơn nữa, nó sử dụng Chú ý nhóm phân cấp (HGA) và các chiến lược gating thích ứng để giảm thiểu thông tin trực quan dư thừa hoặc không được sử dụng hết được mã hóa bởi mô-đun MoECs. MoCHA được đào tạo trên các LLM hàng đầu, chẳng hạn như Phi2-2.7B và Vicuna-7B, và hiệu suất của nó đã được đánh giá trên nhiều điểm chuẩn khác nhau. MoCHA vượt trội hơn các mô hình trọng số mở tiên tiến trên một số tác vụ. Cụ thể, so với CuMo (Mistral-7B), MoCHA (Phi2-2.7B) cho thấy cải thiện 3,25% về khả năng giảm ảo giác trên thang điểm Xử lý hình ảnh dự đoán (POPE) và cải thiện 153 điểm về khả năng hướng dẫn thị giác theo thang điểm Đánh giá đa phương tiện (MME). Các nghiên cứu cắt đốt bổ sung đã xác nhận hiệu quả và độ tin cậy của MoEC và HGA được đề xuất.