본 논문은 사전 훈련된 모델을 특정 데이터셋에 미세 조정하는 과정에서 발생하는 일반화 성능 저하 문제를 해결하기 위해, 여러 개의 미세 조정된 모델을 단일 다중 작업 모델로 통합하는 모델 병합 기술을 연구합니다. 기존의 모델 병합 방법들은 뉴런의 역할, 연결성, 활성화 등을 고려하지 않아 작업 간섭 문제로 성능 저하를 야기했습니다. 본 연구는 뉴런 메커니즘에 기반한 새로운 모델 병합 프레임워크인 NeuroMerging을 제시합니다. NeuroMerging은 작업 특정 표현을 입력 민감도와 작업 적응성을 조절하는 두 개의 상보적인 뉴런 하위 공간으로 분해하여 작업 간섭을 완화하고 다양한 작업에 걸쳐 훈련 없이 모델을 융합합니다. 자연어 및 비전 영역의 다중 작업 벤치마크에서 기존 방법보다 우수한 성능을 달성함을 실험적으로 보여줍니다. 이는 모델 병합에서 뉴런 메커니즘의 정렬이 중요함을 강조하고, 작업 간섭 완화 및 지식 융합 개선에 대한 새로운 통찰력을 제공합니다.
시사점, 한계점
•
시사점:
◦
뉴런 메커니즘을 고려한 새로운 모델 병합 프레임워크인 NeuroMerging 제시
◦
기존 모델 병합 방법들의 한계점인 작업 간섭 문제를 효과적으로 완화
◦
자연어 및 비전 영역에서 기존 방법보다 우수한 성능 달성
◦
모델 병합에서 뉴런 메커니즘의 중요성을 강조하고, 지식 융합 개선에 대한 새로운 통찰력 제공
•
한계점:
◦
NeuroMerging의 성능 향상이 모든 다중 작업 벤치마크에서 일관되게 나타나는지 추가적인 검증 필요