Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging

Created by
  • Haebom

저자

Yongxian Wei, Runxi Cheng, Weike Jin, Enneng Yang, Li Shen, Lu Hou, Sinan Du, Chun Yuan, Xiaochun Cao, Dacheng Tao

개요

본 논문은 자원 집약적인 훈련 요구사항으로 인해 느리게 업데이트되는 기초 모델과 달리, 도메인 특정 모델은 업데이트 사이에서 발전한다는 점을 배경으로 한다. 모델 병합은 여러 전문가 모델을 하나의 더욱 능력 있는 모델로 결합하여 저장 및 서비스 비용을 줄이고 분산된 모델 개발을 지원하는 것을 목표로 한다. 기존 연구는 주로 시각적 분류 모델이나 코드 및 수학 작업을 위한 거대 언어 모델(LLM) 병합에 초점을 맞춰왔으나, 본 논문은 대규모 다중 모달 훈련을 통해 LLM의 기능을 확장하는 다중 모달 거대 언어 모델(MLLM)에 대한 모델 병합 벤치마크를 제시한다. 본 논문에서는 MLLM을 위한 모델 병합 벤치마크를 제시하고(VQA, Geometry, Chart, OCR, Grounding 등 다양한 작업 포함), 10가지 모델 병합 알고리즘을 구현하며, 작업 벡터에서 노이즈를 제거하고 작업 벡터 상호작용에 정의된 손실을 기반으로 병합된 벡터를 강건하게 최적화하는 새로운 방법을 제안한다. 이를 통해 평균 2.48%의 성능 향상을 달성하고, 모델 병합이 데이터 훈련 없이 향상된 MLLM을 구축하는 유망한 방법임을 보여준다. 또한 여러 모달 간의 상호 보완성이 개별 모달보다 우수함을 보여준다.

시사점, 한계점

시사점:
MLLM을 위한 모델 병합 벤치마크를 최초로 제시하여 향후 연구의 기준을 마련했다.
다양한 모달(시각-언어, 음성-언어, 비디오-언어)을 결합하는 모델 병합을 통해 Omni-language 모델로 나아갈 수 있는 가능성을 제시했다.
작업 벡터 노이즈 제거 및 강건한 최적화 기법을 통해 기존 방법보다 향상된 성능을 달성했다.
모델 병합을 통해 데이터 훈련 없이 MLLM의 성능 향상을 가능하게 함을 보였다.
다양한 모달의 상호 보완성을 통해 성능 향상을 얻을 수 있음을 실험적으로 증명했다.
한계점:
제시된 벤치마크의 범위가 제한적일 수 있다. 더욱 다양하고 복잡한 작업이 추가될 필요가 있다.
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요하다.
다양한 MLLM 아키텍처에 대한 적용성을 검증할 필요가 있다.
실제 응용 환경에서의 성능 평가가 부족하다.
👍