본 논문은 사전 훈련된 모델을 특정 데이터셋에 미세 조정하여 과제 특이적 성능을 향상시키는 기존 방식의 일반화 문제를 해결하기 위해, 여러 개의 미세 조정된 모델을 단일 다중 과제 모델로 통합하는 모델 병합 기술에 초점을 맞추고 있습니다. 기존의 모델 병합 기술은 과제 간섭으로 인해 성능 저하가 발생하는 문제점을 가지고 있는데, 본 논문에서는 뉴런의 역할, 연결성, 활성화에 초점을 맞춰 이 문제를 해결하는 새로운 모델 병합 프레임워크인 NeuroMerging을 제시합니다. NeuroMerging은 과제 특정 표현을 뉴런 민감도와 입력 적응성을 조절하는 두 개의 상보적인 뉴런 하위 공간으로 분해하여 과제 간섭을 완화하고 다양한 과제에 걸쳐 학습이 필요없는 모델 융합을 가능하게 합니다. 자연어 처리와 컴퓨터 비전 분야의 다양한 벤치마크를 통해 기존 방법보다 우수한 성능을 달성함을 실험적으로 입증합니다.
시사점, 한계점
•
시사점:
◦
뉴런 메커니즘을 기반으로 한 모델 병합의 중요성을 강조하며, 과제 간섭 완화 및 지식 융합 개선에 대한 새로운 통찰력을 제공합니다.
◦
NeuroMerging은 기존 모델 병합 방법보다 우수한 성능을 달성하여 다중 과제 학습 분야에 실질적인 기여를 합니다.
◦
학습이 필요 없는(training-free) 모델 융합 방식을 제시하여 효율성을 높입니다.