Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FW-Merging: Scaling Model Merging with Frank-Wolfe Optimization

Created by
  • Haebom
Category
Empty

저자

Hao Mark Chen, Shell Xu Hu, Wayne Luk, Timothy Hospedales, Hongxiang Fan

개요

본 논문은 다양한 출처의 미세 조정된 기초 모델들을 효율적으로 통합하는 새로운 모델 병합 방법인 Frank-Wolfe Merging (FW-Merging)을 제안합니다. 기존 모델 병합 방법들이 사내 미세 조정 모델에 국한되고, 많은 모델을 병합할 때 확장성이 떨어지는 문제점을 해결하기 위해, FW-Merging은 제약 조건이 있는 최적화 문제로 모델 병합을 공식화합니다. Frank-Wolfe 최적화에서 영감을 받아, FW-Merging은 목적 함수의 선형 근사를 최소화하는 가장 관련성이 높은 모델을 반복적으로 선택하고, Frank-Wolfe 업데이트와 유사한 지역적 병합을 수행합니다. 실험 결과, FW-Merging은 다양한 모델 소스에 걸쳐 확장성이 뛰어나며, 관련 없는 모델 16개를 포함해도 안정적이고, 관련 모델 16개를 사용하면 20개의 CV 작업에서 15.3% 향상을 보였습니다. 또한 기존 최첨단 방법보다 우수한 성능을 보였습니다.

시사점, 한계점

시사점:
다양한 출처의 미세 조정된 기초 모델을 효율적으로 통합하는 새로운 방법 제시
기존 모델 병합 방법의 확장성 및 적용 범위의 한계 극복
데이터가 없는 병합 방법 및 데이터 기반 병합 방법보다 우수한 성능 달성
일정한 메모리 오버헤드 유지 (데이터 기반 병합 방법의 선형 오버헤드와 대조)
기존 병합 방법과의 호환성 및 성능 향상 가능성 제시
오픈소스 코드 공개
한계점:
본 논문에서 제시된 실험 결과가 특정 데이터셋과 작업에 국한될 가능성 존재
다양한 모델 아키텍처 및 크기에 대한 일반화 성능에 대한 추가적인 연구 필요
FW-Merging의 최적화 파라미터 설정에 대한 추가적인 연구 필요
대규모 모델 병합 시의 계산 비용 및 시간 복잡도에 대한 추가적인 분석 필요
👍