Sign In

Disentangling Task Interference within Neurons: Model Merging in Alignment with Neuronal Mechanisms

Created by
  • Haebom
Category
Empty

저자

Zitao Fang, Guodong DU, Shuyang Yu, Yifei Guo, Yiwei Zhang, Jing Li, Ho-Kin Tang, Sim Kuan Goh

개요

본 논문은 사전 훈련된 모델을 특정 데이터셋에 미세 조정하여 과제별 성능을 향상시키는 기존 방식의 일반화 저하 문제를 해결하기 위해, 여러 개의 미세 조정된 모델을 단일 다중 과제 모델로 통합하는 모델 병합 기술에 초점을 맞추고 있습니다. 기존의 모델, 레이어 또는 파라미터 수준의 작업 산술을 통한 모델 병합은 과제 간섭으로 인해 성능 저하를 야기하는 한계를 가지고 있습니다. 본 논문에서는 뉴런 정렬의 영향에 대한 최초의 연구로, 과제 특정 표현을 뉴런 민감도와 입력 적응성을 조절하는 두 개의 상보적인 뉴런 하위 공간으로 분해합니다. 이를 바탕으로, 뉴런 하위 공간 내에서 과제 간섭을 완화하고 다양한 과제에 걸쳐 훈련 없는 모델 융합을 가능하게 하는 새로운 병합 프레임워크인 NeuroMerging을 제시합니다. 실험 결과, NeuroMerging은 비전 및 자연어 처리 분야의 다중 과제 벤치마크에서 기존 방법보다 우수한 성능을 달성함을 보여줍니다.

시사점, 한계점

시사점:
뉴런 정렬이 모델 병합 성능에 중요한 영향을 미친다는 것을 최초로 규명.
과제 간섭을 완화하고 지식 융합을 개선하는 새로운 방법인 NeuroMerging 프레임워크 제시.
훈련 없는 모델 융합을 통해 효율성 향상.
비전 및 자연어 처리 분야에서 기존 방법보다 우수한 성능 달성.
한계점:
NeuroMerging의 일반화 성능에 대한 추가적인 연구 필요.
다양한 모델 아키텍처 및 과제에 대한 확장성 검증 필요.
뉴런 하위 공간 분해의 해석 가능성 및 신뢰성에 대한 추가적인 분석 필요.
👍