Sign In

Multi-Level Collaboration in Model Merging

Created by
  • Haebom
Category
Empty

저자

Qi Li, Runpeng Yu, Xinchao Wang

개요

본 논문은 다중 작업 학습에서 떠오르는 패러다임인 파라미터 수준 모델 병합(parameter-level model merging)에 대해 연구합니다. 기존 연구는 예측 수준 모델 앙상블(prediction-level model ensembling)과의 관계를 탐구하여 두 방법 간의 성능 일관성 달성 가능성을 보였지만, 이는 두 모델 사용, ViT 기반 모델 사용, 동일한 사전 훈련된 체크포인트에서 미세 조정된 모델 사용 등의 전제 조건에 의존했습니다. 본 논문은 이러한 제한 조건을 제거한 경우에도 모델 병합과 모델 앙상블 간의 성능 일관성을 달성할 수 있는지 탐구합니다. 이를 위해, 이론적으로 모델 병합과 앙상블 간의 성능 상관 관계를 확립하고, 제한 조건이 충족되지 않더라도 모델 병합이 앙상블과 유사하거나 우수한 성능을 달성할 수 있음을 보입니다. NeuLig라는 검증 프레임워크를 도입하여 실용성을 확인하고, 이론적 기반을 갖춘 특수 손실 함수를 사용하여 NeuLig의 학습 과정을 설계했습니다. 실험 결과는 모델 규모와 협업 모델 수에 관계없이 NeuLig의 강력한 탄력성을 보여줍니다. 예를 들어, 5개의 CLIP-ViT-B/32 모델을 사용한 경우, 파라미터 수준 병합은 예측 수준 앙상블과 동일한 성능(병합: 95.44% vs. 앙상블: 95.46%)을 달성했습니다.

시사점, 한계점

시사점:
기존 연구의 제한적인 조건 없이도 파라미터 수준 모델 병합이 예측 수준 모델 앙상블과 유사한 성능을 달성할 수 있음을 이론적 및 실험적으로 증명.
모델 규모 및 모델 개수에 관계없이 강건한 성능을 보이는 NeuLig 프레임워크 제시.
파라미터 수준 모델 병합의 실용성 및 효율성을 입증.
한계점:
NeuLig의 성능이 특정 데이터셋이나 모델 아키텍처에 국한될 가능성.
더욱 다양한 실험 설정 및 데이터셋에 대한 추가적인 연구 필요.
이론적 분석의 일반화 가능성에 대한 추가 검증 필요.
👍