Merging without Forgetting: Continual Fusion of Task-Specific Models via Optimal Transport
Created by
Haebom
Category
Empty
저자
Zecheng Pan, Zhikang Chen, Ding Li, Min Zhang, Sen Cui, Hongshuo Jin, Luqi Tao, Yi Yang, Deheng Ye, Yu Zhang, Tingting Zhu, Tianling Ren
개요
다양한 작업에 미세 조정된 모델을 단일 통합 모델로 병합하는 것은 다재다능하고 효율적인 다중 작업 시스템을 구축하는 데 중요한 방향이 되고 있다. 기존 접근 방식은 가중치 공간에서 매개변수 보간에 주로 의존하지만, 이는 특징 공간에서 상당한 분포 이동을 유발하고 작업별 지식을 저해한다. 본 논문에서는 단순한 매개변수 보간으로 인해 발생하는 분포 이동을 해결하기 위해 최적 수송 이론에 기반한 새로운 모델 병합 프레임워크인 OTMF(Optimal Transport-based Masked Fusion)를 제안한다. OTMF는 특징이나 가중치를 직접 집계하는 대신, 최적 수송 계획을 통해 작업 벡터에 적용되는 공통 마스크를 발견하여 작업별 모델의 의미론적 기하학을 정렬한다. 이러한 마스크는 이전 작업들을 재방문하지 않고 새로운 각 작업 벡터를 점진적으로 통합하는 지속적인 융합 패러다임을 지원하여 제한된 메모리 공간을 유지하고 증가하는 작업 수에 걸쳐 효율적인 융합을 가능하게 한다. 여러 비전 및 언어 벤치마크에 대한 포괄적인 실험을 수행한 결과, OTMF가 정확도와 효율성 측면에서 최고 성능을 달성했다.