MoCHA는 비전 대규모 언어 모델(VLLM)의 높은 훈련 및 추론 비용과 시각적 세부 정보 추출의 어려움을 해결하기 위해 제안된 새로운 시각적 프레임워크입니다. CLIP, SigLIP, DINOv2, ConvNeXt 네 가지 비전 백본을 통합하여 상호 보완적인 시각적 특징을 추출하고, 희소 전문가 혼합 커넥터(MoECs) 모듈을 통해 다양한 시각적 차원에 맞춤화된 전문가를 동적으로 선택합니다. 또한 계층적 그룹 어텐션(HGA)과 적응형 게이팅 전략을 사용하여 MoECs 모듈에 의해 인코딩된 시각 정보의 중복 또는 부족한 사용을 완화합니다. Phi2-2.7B 및 Vicuna-7B와 같은 주요 LLM에 MoCHA를 훈련시켜 다양한 벤치마크에서 성능을 평가한 결과, 여러 작업에서 최첨단 오픈 가중치 모델을 능가하는 성능을 보였습니다. 특히, CuMo (Mistral-7B)와 비교하여 MoCHA (Phi2-2.7B)는 POPE에서 3.25% 향상된 환각 감소 능력과 MME에서 153점 증가한 시각적 지시 사항 따르기 능력을 보여주었습니다. 추가적인 ablation study는 제안된 MoECs와 HGA의 효과와 강건성을 확인했습니다.