Sign In

Towards Minimizing Feature Drift in Model Merging: Layer-wise Task Vector Fusion for Adaptive Knowledge Integration

Created by
  • Haebom
Category
Empty

저자

Wenju Sun, Qingyong Li, Wen Wang, Yang Liu, Yangli-ao Geng, Boyang Li

개요

LOT Merging은 여러 개의 fine-tuned task-specific expert 모델들을 하나의 통합 모델로 병합하는 기법입니다. 기존의 방법들이 parameter-level 또는 task-loss를 최소화하는 데 집중한 반면, LOT Merging은 모델 병합으로 인해 발생하는 feature drift를 최소화하는 데 초점을 맞춥니다. LOT Merging은 layer-by-layer 방식으로 feature drift를 줄이며, convex quadratic optimization 문제를 통해 linear 및 normalization layer의 파라미터에 대한 closed-form solution을 도출합니다. 실험 결과, LOT Merging은 vision 및 vision-language 벤치마크에서 기존 방법들을 능가하는 성능을 보였습니다.

시사점, 한계점

시사점:
feature drift를 최소화하는 것이 모델 병합 성능 향상에 효과적임을 입증했습니다.
convex quadratic optimization을 활용하여 효율적인 모델 통합을 가능하게 했습니다.
vision 및 vision-language 분야에서 기존 방법 대비 우수한 성능을 달성했습니다.
한계점:
구체적인 한계점은 논문 내용에 명시되어 있지 않습니다.
👍