Exploring Model Kinship for Merging Large Language Models
Created by
Haebom
저자
Yedi Hu, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang
개요
본 논문은 대규모 언어 모델(LLM)의 성능과 효율성을 향상시키는 핵심 기술인 모델 병합에 대한 연구를 다룬다. 기존의 모델 병합 연구는 두 모델을 병합했을 때의 성능 향상 및 원리를 제한적으로 이해하고 있었다. 본 논문에서는 생물학적 진화와 유사하게 LLM 간의 유사성 또는 관련성을 나타내는 '모델 혈연 관계(model kinship)' 개념을 도입한다. 실증 분석을 통해 모델 혈연 관계와 모델 병합 후 성능 향상 간의 상관관계를 밝히고, 이를 바탕으로 새로운 모델 병합 전략인 '모델 혈연 관계를 이용한 Top-k 탐욕적 병합'을 제안한다. 이 전략은 벤치마크 데이터셋에서 더 나은 성능을 달성하며, 모델 혈연 관계를 기준으로 모델 병합을 지속적으로 수행함으로써 모델 진화 과정에서의 성능 저하(지역 최적화)를 완화하고, 이러한 덫에서 벗어나는 데 도움을 준다는 것을 발견했다. 코드는 https://github.com/zjunlp/ModelKinship 에서 확인 가능하다.