A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning
Created by
Haebom
저자
Prateek Yadav, Colin Raffel, Mohammed Muqeeth, Lucas Caccia, Haokun Liu, Tianlong Chen, Mohit Bansal, Leshem Choshen, Alessandro Sordoni
개요
본 논문은 최근 급증하고 있는 모델 모으기(MoErging) 방법들을 종합적으로 조사하고 분석한 연구이다. 성능 좋은 사전 훈련된 모델들이 널리 사용됨에 따라 특정 도메인이나 작업에 특화된 미세 조정된 전문가 모델들이 많이 등장하였고, 이러한 전문가 모델들을 재활용하여 성능이나 일반화 능력을 향상시키는 모델 모으기 방법론들이 주목받고 있다. 본 논문은 다양한 모델 모으기 방법들의 설계 선택지를 분류하는 새로운 분류 체계를 제시하고 각 방법에 적합한 응용 분야를 명확히 하였다. 또한, 모델 모으기 방법들을 사용하는 소프트웨어 도구 및 응용 프로그램들을 조사하고, 모델 통합, 다중 작업 학습, 전문가 혼합 모델 등 관련 연구 분야도 논의하여 모델 모으기 분야에 대한 통합적인 개요를 제공하고 향후 연구를 위한 기반을 마련하였다.
시사점, 한계점
•
시사점:
◦
모델 모으기 방법들의 종합적인 분석 및 분류 체계 제공으로 연구자들의 이해도 향상 및 효율적인 연구 방향 설정 가능.
◦
다양한 모델 모으기 방법들의 장단점 비교 분석을 통해 최적의 방법 선택 가능.
◦
모델 모으기 관련 소프트웨어 도구 및 응용 프로그램 목록 제공으로 실제 적용 가능성 증대.
◦
관련 연구 분야와의 연관성을 제시하여 학문적 융합 및 발전에 기여.
•
한계점:
◦
본 논문에서 제시된 분류 체계가 모든 모델 모으기 방법을 완벽하게 포괄하지 못할 가능성 존재.
◦
실험 설정의 차이로 인한 방법 간의 직접적인 비교가 어려움.
◦
새로운 모델 모으기 방법들이 지속적으로 개발되므로, 본 논문의 내용이 빠르게 구식이 될 가능성 존재.