본 논문은 자원 집약적인 훈련 요구사항으로 인해 느리게 업데이트되는 기초 모델과 달리, 도메인 특정 모델은 업데이트 사이에서 발전한다는 점을 배경으로 한다. 모델 병합은 여러 전문가 모델을 하나의 더욱 능력 있는 모델로 결합하여 저장 및 서비스 비용을 줄이고 분산된 모델 개발을 지원하는 것을 목표로 한다. 기존 연구는 주로 시각적 분류 모델이나 코드 및 수학 작업을 위한 거대 언어 모델(LLM) 병합에 초점을 맞춰왔으나, 본 논문은 대규모 다중 모달 훈련을 통해 LLM의 기능을 확장하는 다중 모달 거대 언어 모델(MLLM)에 대한 모델 병합 벤치마크를 제시한다. 본 논문에서는 MLLM을 위한 모델 병합 벤치마크를 제시하고(VQA, Geometry, Chart, OCR, Grounding 등 다양한 작업 포함), 10가지 모델 병합 알고리즘을 구현하며, 작업 벡터에서 노이즈를 제거하고 작업 벡터 상호작용에 정의된 손실을 기반으로 병합된 벡터를 강건하게 최적화하는 새로운 방법을 제안한다. 이를 통해 평균 2.48%의 성능 향상을 달성하고, 모델 병합이 데이터 훈련 없이 향상된 MLLM을 구축하는 유망한 방법임을 보여준다. 또한 여러 모달 간의 상호 보완성이 개별 모달보다 우수함을 보여준다.