Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CAT Merging: A Training-Free Approach for Resolving Conflicts in Model Merging

Created by
  • Haebom

저자

Wenju Sun, Qingyong Li, Yangli-ao Geng, Boyang Li

개요

본 논문은 추가적인 훈련 없이 여러 전문 모델을 통합된 하나의 모델로 통합하는 다중 작업 모델 병합에 대한 새로운 방법을 제안합니다. 기존 최첨단 기술인 Task Arithmetic과 그 변형들은 미세 조정된 모델과 사전 훈련된 모델 간의 매개변수 차이인 작업 벡터를 누적하여 모델을 병합하지만, 이는 지식 충돌로 인해 성능 저하를 초래할 수 있습니다. 이러한 문제를 해결하기 위해, 본 논문에서는 지식 충돌이 발생하기 쉬운 구성 요소를 작업 벡터에서 선택적으로 제거하는 새로운 훈련 없는 프레임워크인 Conflict-Aware Task Merging (CAT Merging)을 제안합니다. CAT Merging은 선형 가중치에 대한 투영과 정규화 계층의 스케일링 및 시프팅 매개변수에 대한 마스킹 등 여러 매개변수별 전략을 도입합니다. 비전, 언어 및 비전-언어 작업에 대한 광범위한 실험을 통해 CAT Merging이 지식 충돌을 효과적으로 억제하여 기존 최첨단 방법보다 평균 정확도를 최대 2.5%(ViT-B/32) 및 2.0%(ViT-L/14) 향상시키는 것을 보여줍니다.

시사점, 한계점

시사점:
추가적인 훈련 없이 다중 작업 모델을 효과적으로 병합하는 새로운 방법인 CAT Merging 제시.
지식 충돌 문제를 해결하여 기존 방법보다 성능 향상 달성.
비전, 언어, 비전-언어 작업에서의 성능 향상을 실험적으로 검증.
한계점:
제안된 방법의 효과가 특정 모델 아키텍처(ViT)에 국한될 가능성.
다양한 작업 및 모델 아키텍처에 대한 더 광범위한 실험이 필요.
매개변수별 전략의 일반성 및 적용 가능성에 대한 추가적인 연구 필요.
👍