Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Merging without Forgetting: Continual Fusion of Task-Specific Models via Optimal Transport

Created by
  • Haebom
Category
Empty

저자

Zecheng Pan, Zhikang Chen, Ding Li, Min Zhang, Sen Cui, Hongshuo Jin, Luqi Tao, Yi Yang, Deheng Ye, Yu Zhang, Tingting Zhu, Tianling Ren

개요

다양한 작업에 미세 조정된 모델을 단일 통합 모델로 병합하는 것은 다재다능하고 효율적인 다중 작업 시스템을 구축하는 데 중요한 방향이 되고 있다. 기존 접근 방식은 가중치 공간에서 매개변수 보간에 주로 의존하지만, 이는 특징 공간에서 상당한 분포 이동을 유발하고 작업별 지식을 저해한다. 본 논문에서는 단순한 매개변수 보간으로 인해 발생하는 분포 이동을 해결하기 위해 최적 수송 이론에 기반한 새로운 모델 병합 프레임워크인 OTMF(Optimal Transport-based Masked Fusion)를 제안한다. OTMF는 특징이나 가중치를 직접 집계하는 대신, 최적 수송 계획을 통해 작업 벡터에 적용되는 공통 마스크를 발견하여 작업별 모델의 의미론적 기하학을 정렬한다. 이러한 마스크는 이전 작업들을 재방문하지 않고 새로운 각 작업 벡터를 점진적으로 통합하는 지속적인 융합 패러다임을 지원하여 제한된 메모리 공간을 유지하고 증가하는 작업 수에 걸쳐 효율적인 융합을 가능하게 한다. 여러 비전 및 언어 벤치마크에 대한 포괄적인 실험을 수행한 결과, OTMF가 정확도와 효율성 측면에서 최고 성능을 달성했다.

시사점, 한계점

최적 수송 이론을 활용한 새로운 모델 병합 프레임워크인 OTMF 제안.
분포 이동 문제를 해결하고 작업별 지식을 보존.
작업 벡터에 적용되는 공통 마스크를 통해 의미론적 기하학 정렬.
지속적인 융합 패러다임 지원으로 확장성 확보.
다중 비전 및 언어 벤치마크에서 SOTA 달성.
(한계점은 논문에 명시되지 않음)
👍