본 논문은 사전 훈련된 모델을 특정 데이터셋에 미세 조정하여 과제 특이적 성능을 향상시키는 과정에서 일반화 성능이 저하되는 문제를 해결하기 위해, 여러 개의 미세 조정된 모델을 단일 다중 과제 모델로 통합하는 모델 병합 기법에 초점을 맞추고 있습니다. 기존의 모델 병합 기법들은 과제 간섭 문제로 인해 성능 저하를 야기하는 한계를 가지고 있으며, 뉴런의 역할, 연결성, 활성화 등을 고려하지 않았습니다. 본 연구는 뉴런 메커니즘에 기반한 새로운 모델 병합 프레임워크인 NeuroMerging을 제시합니다. NeuroMerging은 과제 특이적 표현을 입력 민감도와 과제 적응성을 조절하는 두 개의 상보적인 뉴런 하위 공간으로 분해하여 과제 간섭을 완화하고 다양한 과제에 걸쳐 훈련 없이 모델을 융합합니다. 자연어 처리 및 컴퓨터 비전 분야의 다양한 벤치마크에서 기존 방법보다 우수한 성능을 달성함을 실험적으로 입증하였습니다.
시사점, 한계점
•
시사점:
◦
뉴런 메커니즘을 기반으로 한 모델 병합의 중요성을 강조하고, 과제 간섭 완화 및 지식 융합 개선에 대한 새로운 통찰력을 제공합니다.
◦
NeuroMerging은 훈련 없이 다양한 과제에 걸쳐 모델을 융합할 수 있는 효과적인 방법을 제시합니다.
◦
자연어 처리와 컴퓨터 비전 분야 모두에서 기존 방법보다 우수한 성능을 달성했습니다.
•
한계점:
◦
본 논문에서 제시된 NeuroMerging의 일반화 성능에 대한 추가적인 연구가 필요합니다.